Научно-технический
«ОПТИЧЕСКИЙ ЖУРНАЛ»
издается с 1931 года
 
   
Русский вариант сайта Английский вариант сайта
   
       
   
       
Статьи последнего выпуска

Электронные версии
выпусков начиная с 2008


Алфавитный указатель
2000-2010 гг


444
Архив оглавлений
выпусков 2002-2007 гг


Реквизиты и адреса

Вниманию авторов и рецензентов!
- Порядок публикации
- Порядок рецензирования статей
- Типовой договор
- Правила оформления
- Получение авторского вознаграждения
- Редакционная этика


Контакты

Подписка

Карта сайта




Журнал с 01.12.2015 допущен ВАК для публикации основных результатов диссертаций как издание, входящее в международные реферативные базы систем цитирования (Web Science, Scopus) (см. Vak.ed.gov.ru Перечень журналов МБД 16.03.2018г)

Аннотации (01.2023) : Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры

Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры

DOI: 10.17586/1023-5086-2023-90-01-37-48

УДК 004.93

Денис Викторович Явна1*, Виталий Вадимович Бабенко2, Ольга Алексеевна Горбенкова3, Игорь Владимирович Плавельский4, Виктория Дмитриевна Вороная5, Александр Сергеевич Столетний6

Южный федеральный университет, Ростов-на-Дону, Россия

1yavna@fortran.su        https://orcid.org/0000-0003-2895-5119

2babenko@sfedu.ru       https://orcid.org/0000-0002-3750-1277

3gorbenkova@sfedu.ru https://orcid.org/0000-0002-3302-563X

4nilpga@yandex.ru        https://orcid.org/0000-0003-1594-1842

5vikt.voronaya@yandex.ru          https://orcid.org/0000-0002-9984-2245

6stoletniynk@inbox.ru https://orcid.org/0000-0001-7955-8696

Аннотация

Предмет исследования. Исследование возможности использования нейросетевых моделей зрительных механизмов второго порядка в качестве входов нейросетей-классификаторов. Зрительные механизмы второго порядка отвечают за обнаружение пространственных неоднородностей контраста, ориентации и пространственной частоты в изображении. Эти механизмы традиционно рассматриваются исследователями зрительной системы как одно из звеньев начальной зрительной обработки; хорошо изучена их роль в восприятии текстур. Цель работы — проверить, будет ли предварительное обучение входных модулей классификатора демодуляции пространственных модуляций градиентов яркости способствовать категоризации объектов и сцен. Метод. В качестве основного метода применялось нейросетевое моделирование. На первом этапе исследования была сгенерирована выборка текстурных изображений, используемая для обучения нейросетевых моделей зрительных механизмов второго порядка, и проведено обучение этих моделей. На втором этапе были подготовлены выборки объектов и сцен, на которых было проведено обучение сетей-классификаторов. На входе этих сетей располагались ранее обученные модели зрительных механизмов второго порядка с замороженными весами. Основные результаты. Информации второго порядка, представленной в виде карты мгновенных значений функции модуляции контраста, ориентации и пространственной частоты в изображении, может быть достаточно для идентификации только некоторых классов сцен. В целом, в рамках предложенных нейросетевых архитектур использование значений функции модуляции градиентов яркости для решения задачи классификации объектов оказалось малоэффективным. Таким образом, не подтвердилась гипотеза о том, что зрительные фильтры второго порядка кодируют признаки, позволяющие идентифицировать объект. Этот результат делает необходимым проверку альтернативной гипотезы, согласно которой роль фильтров второго порядка ограничивается задачей построения карт салиентности, а сами фильтры являются окнами, через которые поступает информация с выходов фильтров первого порядка. Практическая значимость. Проведена оценка возможностей использования моделей зрительных механизмов второго порядка в системах компьютерного зрения.

Ключевые слова: механизмы зрительной обработки, текстура, сверточная нейронная сеть, нейросеть-классификатор, машинное зрение

Благодарность: исследование выполнено при финансовой поддержке РФФИ, проект № 18-29-22001 МК «Исследование нейрокогнитивных технологий управления вниманием и формирования ментальных репрезентаций визуального интернет-контента».

Ссылка для цитирования: Явна Д.В., Бабенко В.В., Горбенкова О.А., Плавельский И.В., Вороная В.Д., Столетний А.С. Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры // Оптический журнал. 2023. Т. 90. № 1. С. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

Коды OCIS: 100.4996, 330.5370

 

Categorization of objects and scenes by a neural network whose input modules are pre-trained to decode spatial texture inhomogeneities

Denis V. Yavna1*, Vitaly V. Babenko2, Olga A. Gorbenkova3, Igor V. Plavelsky4, Viktoria D. Voronaya5, Aleksandr S. Stoletniy6

Southern Federal University, Rostov-on-Don, Russia

1yavna@fortran.su

2babenko@sfedu.ru

3gorbenkova@sfedu.ru

4nilpga@yandex.ru

5vikt.voronaya@yandex.ru

6stoletniynk@inbox.ru

Abstract

Scope of research. Investigation of the possibility of using neural network models of second-order visual mechanisms as input data for neural network classifiers. Second-order visual mechanisms make it possible to detect spatial inhomogeneities in contrast, orientation, and spatial frequency in an image. These mechanisms are traditionally considered by visual researchers as one of the stages of early visual processing; their role in the perception of textures has been well studied. The purpose of the work is to study whether the use of classifier input modules previously trained to demodulate spatial modulations of brightness gradients will contribute to the categorization of objects and scenes. Method. Neural network modeling was used as the main method. At the first stage of the study, a set of texture images was generated, which is used to train neural network models of second-order visual mechanisms, and these models were trained. At the second stage, samples of objects and scenes were prepared, on which classifier networks were trained. Previously trained models of second-order visual mechanisms with frozen weights were placed at the input of these networks. Main results. The second order information, presented as a map of instantaneous values of the modulation function of contrast, orientation and spatial frequency in the image, may be sufficient to identify only some classes of scenes. In general, within the framework of the proposed neural network architectures, the use of modulation function values for solving the problem of object classification turned out to be ineffective. Thus, the hypothesis that second-order visual filters encode features that allow identifying an object was not confirmed. This result makes it necessary to test an alternative hypothesis that the role of second-order filters is limited to participation in the construction of saliency maps, and the filters themselves are windows through which information comes from the outputs of first-order filters. Practical significance. The possibility of using second-order models of visual mechanisms in computer vision systems was assessed.

Keywords: visual processing mechanisms, texture, convolutional neural network, classifier neural network, machine vision

Acknowledgment: the study was financially supported by the Russian Foundation for Basic Research, project № 18-29-22001 MK "An investigation of neurocognitive technologies of attentional control and formation of mental representations of visual web content".

For citation: Yavna D.V., Babenko V.V., Gorbenkova O.A., Plavelsky I.V., Voronaya V.D., Stoletniy A.S. Categorization of objects and scenes by a neural network whose input modules are pre-trained to decode spatial texture inhomogeneities [in Russian] // Opticheskii Zhurnal. 2023. V. 90. № 1. P. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

OCIS сodes:  100.4996, 330.5370

 

СПИСОК ИСТОЧНИКОВ 

1.    Treisman A.M., Gelade G. A feature-integration theory of attention // Cognitive Psychology. 1980. V. 12. № 1. P. 97–136.

2.   Sutter A., Beck J., Graham N.V. Contrast and spatial variables in texture segregation: testing a simple spatial-frequency channels model // Percept. Psychophys. 1989. V. 46. № 4. P. 312–332.

3.   Mareschal I., Baker C.L. Temporal and spatial response to second-order stimuli in cat area 18 // J. Neurophysiol. 1998. V. 80. № 6. P. 2811–2823. https://doi.org/10.1152/jn.1998.80.6.2811

4.   Landy M.S., Oruç I. Properties of second-order spatial frequency channels // Vision Res. 2002. V. 42. № 19. P. 2311–2329. https://doi.org/10.1016/s0042-6989(02)00193-1

5.   Derrington A. Second-order visual processing // Optics & Photonics News. 2001. V. 12. № 1. P. 18. https://doi.org/10.1364/OPN.12.1.000018

6.   Huang P.-C., Chen C.-C. A comparison of pedestal effects in first- and second-order patterns // J. Vision. 2014. V. 14. № 1. P. 9–9. https://doi.org/10.1167/14.1.9

7.    Sutter A., Sperling G., Chubb C. Measuring the spatial frequency selectivity of second-order texture mechanisms // Vision Res. 1995. V. 35. № 7. P. 915–924. https://doi.org/10.1016/0042-6989(94)00196-s

8.   Шелепин Ю.Е., Чихман В.Н., Вахрамеева О.А., Пронин С.В., Фореман Н., Пэсмор П. Инвариантность зрительного восприятия // Экспериментальная психология. 2008. Т. 1. № 1. С. 7–33. https://elibrary.ru/item.asp?id=3019577

9.   Graham N.V. Beyond multiple pattern analyzers modeled as linear filters (as classical V1 simple cells): useful additions of the last 25 years // Vision Res. 2011. V. 51. № 13. P. 1397–1430. https://doi.org/10.1016/j.visres.2011.02.007

10. Babenko V.V., Ermakov P.N. Specificity of brain reactions to second-order visual stimuli // Vis Neurosci. 2015. V. 32. P. E011. https://doi.org/10.1017/S0952523815000085

11.  Ellemberg D., Allen H.A., Hess R.F. Second-order spatial frequency and orientation channels in human vision // Vision Res. 2006. V. 46. № 17. P. 2798–2803. https://doi.org/10.1016/j.visres.2006.01.028

12.  Kingdom F.A.A., Prins N., Hayes A. Mechanism independence for texture-modulation detection is consistent with a filter-rectify-filter mechanism // Vis Neurosci. 2003. V. 20. № 1. P. 65–76. https://doi.org/10.1017/s0952523803201073

13.  Schofield A., Cruickshank A. Transfer of tilt after-effects between second-order cues // Spatial Vis. 2005. V. 18. № 4. P. 379–397. https://doi.org/10.1163/1568568054389624

14.  Wolfe J.M. Visual search. Attention. Hove, England: Psychology Press/Erlbaum (UK) Taylor & Francis, 1998. P. 13–73.

15.  Бабенко В.В., Явна Д.В. Конкуренция за внимание пространственных модуляций градиентов яркости // Российский психологический журнал. 2018. Т. 15. № 3. С. 160–189. https://doi.org/10.21702/rpj.2018.3.8

16.  Yavna D.V., Babenko V.V., Ikonopistseva K.A. Neural network models of second order visual filters // Neural Networks and Neurotechnologies. St. Petersburg, Russia: ВВМ, 2019. P. 198–203.

17.  Явна Д.В., Бабенко В.В., Столетний А.С., Щетинина Д.П., Алексеева Д.С. Различение и декодирование пространственных модуляций текстур многослойными сверточными нейросетями // Вестник РФФИ. 2019. № 4(104). С. 94–104. https://doi.org/10.22204/2410-4639-2019-104-04-94-104

18. Frey H.-P., König P., Einhäuser W. The role of first- and second-order stimulus features for human overt attention // Percept Psychophys. 2007. V. 69. № 2. P. 153–161. https://doi.org/10.3758/bf03193738

19.  Johnson A., Zarei A. Second-order saliency predicts observer eye movements when viewing natural images // Jю Vision. 2010. V. 10. № 7. P. 526–526. https://doi.org/10.1167/10.7.526

20. Gavrikov P. Программное обеспечение Visualkeras [режим доступа]: https://github.com/paulgavrikov/visualkeras

21.  Prins N., Kingdom F.A.A. Detection and discrimination of texture modulations defined by orientation, spatial frequency, and contrast // JOSA. A. 2003. V. 20. № 3. P. 401. https://doi.org/10.1364/JOSAA.20.000401

22. Sandler M., Howard A., Zhu M., et al. MobileNetV2: Inverted residuals and linear bottlenecks // arXiv:1801.04381 [cs]. 2019. Retrieved from http://arxiv.org/abs/1801.04381

23. Yu F., Seff A., Zhang Y., et al. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop // arXiv:1506.03365 [cs]. 2016. Retrieved from http://arxiv.org/abs/1506.03365

24. Xiao J., Hays J., Ehinger K.A., et al. SUN database: Large-scale scene recognition from abbey to zoo // 2010 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. 2010. P. 3485–3492. https://doi.org/10.1109/CVPR.2010.5539970

25. Victor J.D., Conte M.M., Chubb C.F. Textures as probes of visual processing // Annu. Rev. Vis. Sci. 2017. V. 3. № 1. P. 275–296. https://doi.org/10.1146/annurev-vision-102016-061316

26. Uejima T., Niebur E., Etienne-Cummings R. Proto-object based saliency model with second-order texture feature // 2018 IEEE Biomedical Circuits and Systems Conf. (BioCAS). Cleveland, OH: IEEE, 2018. P. 1–4. https://doi.org/10.1109/BIOCAS.2018.8584749

27.       Williams C.C., Castelhano M.S. The changing landscape: High-level influences on eye movement guidance in scenes // J. Vision. 2019. V. 3. № 3. P. 33. https://doi.org/10.3390/vision3030033.

REFERENCES

1.    Treisman A.M., Gelade G. A feature-integration theory of attention // Cognitive Psychology. 1980. V. 12. № 1. P. 97–136.

2.   Sutter A., Beck J., Graham N.V. Contrast and spatial variables in texture segregation: testing a simple spatial-frequency channels model // Percept. Psychophys. 1989. V. 46. № 4. P. 312–332.

3.   Mareschal I., Baker C.L. Temporal and spatial response to second-order stimuli in cat area 18 // J. Neurophysiol. 1998. V. 80. № 6. P. 2811–2823. https://doi.org/10.1152/jn.1998.80.6.2811

4.   Landy M.S., Oruç I. Properties of second-order spatial frequency channels // Vision Res. 2002. V. 42. № 19. P. 2311–2329. https://doi.org/10.1016/s0042-6989(02)00193-1

5.   Derrington A. Second-order visual processing // Optics & Photonics News. 2001. V. 12. № 1. P. 18. https://doi.org/10.1364/OPN.12.1.000018

6.   Huang P.-C., Chen C.-C. A comparison of pedestal effects in first- and second-order patterns // J. Vision. 2014. V. 14. № 1. P. 9–9. https://doi.org/10.1167/14.1.9

7.    Sutter A., Sperling G., Chubb C. Measuring the spatial frequency selectivity of second-order texture mechanisms // Vision Res. 1995. V. 35. № 7. P. 915–924. https://doi.org/10.1016/0042-6989(94)00196-s

8.   Shelepin Yu.E., Chikhman V.N., Vakhrameeva O.A., Pronin S.V., Foreman N., Pasmore P. Invariance of visual perception [in Russian] // Experimental Psychology (Russia). 2008. V. 1. № 1. P. 7–33. https://elibrary.ru/item.asp?id=13019577

9.   Graham N.V. Beyond multiple pattern analyzers modeled as linear filters (as classical V1 simple cells): useful additions of the last 25 years // Vision Res. 2011. V. 51. № 13. P. 1397–1430. https://doi.org/10.1016/j.visres.2011.02.007

10. Babenko V.V., Ermakov P.N. Specificity of brain reactions to second-order visual stimuli // Vis Neurosci. 2015. V. 32. P. E011. https://doi.org/10.1017/S0952523815000085

11.  Ellemberg D., Allen H.A., Hess R.F. Second-order spatial frequency and orientation channels in human vision // Vision Res. 2006. V. 46. № 17. P. 2798–2803. https://doi.org/10.1016/j.visres.2006.01.028

12.  Kingdom F.A.A., Prins N., Hayes A. Mechanism independence for texture-modulation detection is consistent with a filter-rectify-filter mechanism // Vis Neurosci. 2003. V. 20. № 1. P. 65–76. https://doi.org/10.1017/s0952523803201073

13.  Schofield A., Cruickshank A. Transfer of tilt after-effects between second-order cues // Spatial Vis. 2005. V. 18. № 4. P. 379–397. https://doi.org/10.1163/1568568054389624

14.  Wolfe J.M. Visual search. Attention. Hove, England: Psychology Press/Erlbaum (UK) Taylor & Francis, 1998. P. 13–73.

15.  Babenko V.V., Yavna D.V. Competition for attention among spatial modulations of brightness gradients [in Russian] // Russian Psychological J. 2018. V. 15. № 3. P. 160–189. https://doi.org/10.21702/rpj.2018.3.8

16.  Yavna D.V., Babenko V.V., Ikonopistseva K.A. Neural network models of second order visual filters // Neural Networks and Neurotechnologies. St. Petersburg, Russia: ВВМ, 2019. P. 198–203.

17.  Yavna D.V., Babenko V.V., Stoletniy A.S., Shchetinina D.P., Alekseeva D.S. Differentiation and decoding of the spatial modulations of textures by the multilayer convolutional neural networks [in Russian] // Russian Foundation for Basic Research J. 2019. V. 4(104). P. 94–104. https://doi.org/10.22204/2410-4639-2019-104-04-94-104

18. Frey H.-P., König P., Einhäuser W. The role of first- and second-order stimulus features for human overt attention // Percept Psychophys. 2007. V. 69. № 2. P. 153–161. https://doi.org/10.3758/bf03193738

19.  Johnson A., Zarei A. Second-order saliency predicts observer eye movements when viewing natural images // J. Vision. 2010. V. 10. № 7. P. 526–526. https://doi.org/10.1167/10.7.526

20. Gavrikov P. Visualkeras software [access mode]: https://github.com/paulgavrikov/visualkeras

21.  Prins N., Kingdom F.A.A. Detection and discrimination of texture modulations defined by orientation, spatial frequency, and contrast // JOSA. A. 2003. V. 20. № 3. P. 401. https://doi.org/10.1364/JOSAA.20.000401

22. Sandler M., Howard A., Zhu M., et al. MobileNetV2: Inverted residuals and linear bottlenecks // arXiv:1801.04381 [cs]. 2019. Retrieved from http://arxiv.org/abs/1801.04381

23. Yu F., Seff A., Zhang Y., et al. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop // arXiv:1506.03365 [cs]. 2016. Retrieved from http://arxiv.org/abs/1506.03365

24. Xiao J., Hays J., Ehinger K.A., et al. SUN database: Large-scale scene recognition from abbey to zoo // 2010 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. 2010. P. 3485–3492. https://doi.org/10.1109/CVPR.2010.5539970

25. Victor J.D., Conte M.M., Chubb C.F. Textures as probes of visual processing // Annu. Rev. Vis. Sci. 2017. V. 3. № 1. P. 275–296. https://doi.org/10.1146/annurev-vision-102016-061316

26. Uejima T., Niebur E., Etienne-Cummings R. Proto-object based saliency model with second-order texture feature // 2018 IEEE Biomedical Circuits and Systems Conf. (BioCAS). Cleveland, OH: IEEE, 2018. P. 1–4. https://doi.org/10.1109/BIOCAS.2018.8584749

27.       Williams C.C., Castelhano M.S. The changing landscape: High-level influences on eye movement guidance in scenes // J. Vision. 2019. V. 3. № 3. P. 33. https://doi.org/10.3390/vision3030033.