Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры

Явна Д.В., Бабенко В.В., Горбенкова О.А., Плавельский И.В., Вороная В.Д., Столетний А.С.

Полный текст на elibrary.ru

Публикация в Journal of Optical Technology

Ссылка для цитирования:

Явна Д.В., Бабенко В.В., Горбенкова О.А., Плавельский И.В., Вороная В.Д., Столетний А.С. Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры // Оптический журнал. 2023. Т. 90. № 1. С. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

Yavna D.V., Babenko V.V., Gorbenkova O.A., Plavelsky I.V., Voronaya V.D., Stoletniy A.S. Categorization of objects and scenes by a neural network whose input modules are pretrained to decode spatial texture inhomogeneities [in Russian] // Opticheskii Zhurnal. 2023. V. 90. № 1. P. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

Ссылка на англоязычную версию:

D. V. Yavna, V. V. Babenko, O. A. Gorbenkova, I. V. Plavelsky, V. D. Voronaya, and A. S. Stoletniy, "Classification of objects and scenes by a neural network with pretrained input modules to decode spatial texture inhomogeneities," Journal of Optical Technology. 90(1), 20-25 (2023). https://doi.org/10.1364/JOT.90.000020

Аннотация:

Предмет исследования. Исследование возможности использования нейросетевых моделей зрительных механизмов второго порядка в качестве входов нейросетей-классификаторов. Зрительные механизмы второго порядка отвечают за обнаружение пространственных неоднородностей контраста, ориентации и пространственной частоты в изображении. Эти механизмы традиционно рассматриваются исследователями зрительной системы как одно из звеньев начальной зрительной обработки; хорошо изучена их роль в восприятии текстур. Цель работы — проверить, будет ли предварительное обучение входных модулей классификатора демодуляции пространственных модуляций градиентов яркости способствовать категоризации объектов и сцен. Метод. В качестве основного метода применялось нейросетевое моделирование. На первом этапе исследования была сгенерирована выборка текстурных изображений, используемая для обучения нейросетевых моделей зрительных механизмов второго порядка, и проведено обучение этих моделей. На втором этапе были подготовлены выборки объектов и сцен, на которых было проведено обучение сетей-классификаторов. На входе этих сетей располагались ранее обученные модели зрительных механизмов второго порядка с замороженными весами. Основные результаты. Информации второго порядка, представленной в виде карты мгновенных значений функции модуляции контраста, ориентации и пространственной частоты в изображении, может быть достаточно для идентификации только некоторых классов сцен. В целом, в рамках предложенных нейросетевых архитектур использование значений функции модуляции градиентов яркости для решения задачи классификации объектов оказалось малоэффективным. Таким образом, не подтвердилась гипотеза о том, что зрительные фильтры второго порядка кодируют признаки, позволяющие идентифицировать объект. Этот результат делает необходимым проверку альтернативной гипотезы, согласно которой роль фильтров второго порядка ограничивается задачей построения карт салиентности, а сами фильтры являются окнами, через которые поступает информация с выходов фильтров первого порядка. Практическая значимость. Проведена оценка возможностей использования моделей зрительных механизмов второго порядка в системах компьютерного зрения.

Благодарность: исследование выполнено при финансовой поддержке РФФИ, проект № 18-29-22001 МК «Исследование нейрокогнитивных технологий управления вниманием и формирования ментальных репрезентаций визуального интернет-контента».

Ключевые слова:

Ключевые слова: механизмы зрительной обработки, текстура, сверточная нейронная сеть, нейросеть-классификатор, машинное зрение

Коды OCIS: 100.4996, 330.5370

Список источников:

Treisman A.M., Gelade G. A featureintegration theory of attention // Cognitive Psychology. 1980. V. 12. № 1. P. 97–136.
Sutter A., Beck J., Graham N.V. Contrast and spatial variables in texture segregation: testing a simple spatialfrequency channels model // Percept. Psychophys. 1989. V. 46. № 4. P. 312–332.
Mareschal I., Baker C.L. Temporal and spatial response to secondorder stimuli in cat area 18 // J. Neurophysiol. 1998. V. 80. № 6. P. 2811–2823. https://doi.org/10.1152/jn.1998.80.6.2811
Landy M.S., Oruç I. Properties of secondorder spatial frequency channels // Vision Res. 2002. V. 42. № 19. P. 2311–2329. https://doi.org/10.1016/s00426989(02)001931
Derrington A. Secondorder visual processing // Optics & Photonics News. 2001. V. 12. № 1. P. 18. https://doi.org/10.1364/OPN.12.1.000018
Huang P.C., Chen C.C. A comparison of pedestal effects in first and secondorder patterns // J. Vision. 2014. V. 14. № 1. P. 9–9. https://doi.org/10.1167/14.1.9
Sutter A., Sperling G., Chubb C. Measuring the spatial frequency selectivity of secondorder texture mechanisms // Vision Res. 1995. V. 35. № 7. P. 915–924. https://doi.org/10.1016/00426989(94)00196s
Шелепин Ю.Е., Чихман В.Н., Вахрамеева О.А., Пронин С.В., Фореман Н., Пэсмор П. Инвариантность зрительного восприятия // Экспериментальная психология. 2008. Т. 1. № 1. С. 7–33. https://elibrary.ru/item.asp?id=3019577
Graham N.V. Beyond multiple pattern analyzers modeled as linear filters (as classical V1 simple cells): useful additions of the last 25 years // Vision Res. 2011. V. 51. № 13. P. 1397–1430. https://doi.org/10.1016/j.visres.2011.02.007
Babenko V.V., Ermakov P.N. Specificity of brain reactions to secondorder visual stimuli // Vis Neurosci. 2015. V. 32. P. E011. https://doi.org/10.1017/S0952523815000085
Ellemberg D., Allen H.A., Hess R.F. Secondorder spatial frequency and orientation channels in human vision // Vision Res. 2006. V. 46. № 17. P. 2798–2803. https://doi.org/10.1016/j.visres.2006.01.028
Kingdom F.A.A., Prins N., Hayes A. Mechanism independence for texturemodulation detection is consistent with a filterrectifyfilter mechanism // Vis Neurosci. 2003. V. 20. № 1. P. 65–76. https://doi.org/10.1017/s0952523803201073
Schofield A., Cruickshank A. Transfer of tilt aftereffects between secondorder cues // Spatial Vis. 2005. V. 18. № 4. P. 379–397. https://doi.org/10.1163/1568568054389624
Wolfe J.M. Visual search. Attention. Hove, England: Psychology Press/Erlbaum (UK) Taylor & Francis, 1998. P. 13–73.
Бабенко В.В., Явна Д.В. Конкуренция за внимание пространственных модуляций градиентов яркости // Российский психологический журнал. 2018. Т. 15. № 3. С. 160–189. https://doi.org/10.21702/rpj.2018.3.8
Yavna D.V., Babenko V.V., Ikonopistseva K.A. Neural network models of second order visual filters // Neural Networks and Neurotechnologies. St. Petersburg, Russia: ВВМ, 2019. P. 198–203.
Явна Д.В., Бабенко В.В., Столетний А.С., Щетинина Д.П., Алексеева Д.С. Различение и декодирование пространственных модуляций текстур многослойными сверточными нейросетями // Вестник РФФИ. 2019. № 4(104). С. 94–104. https://doi.org/10.22204/2410463920191040494104
Frey H.P., König P., Einhäuser W. The role of first and secondorder stimulus features for human overt attention // Percept Psychophys. 2007. V. 69. № 2. P. 153–161. https://doi.org/10.3758/bf03193738
Johnson A., Zarei A. Secondorder saliency predicts observer eye movements when viewing natural images // Jю Vision. 2010. V. 10. № 7. P. 526–526. https://doi.org/10.1167/10.7.526
Gavrikov P. Программное обеспечение Visualkeras [режим доступа]: https://github.com/paulgavrikov/visualkeras
Prins N., Kingdom F.A.A. Detection and discrimination of texture modulations defined by orientation, spatial frequency, and contrast // JOSA. A. 2003. V. 20. № 3. P. 401. https://doi.org/10.1364/JOSAA.20.000401
Sandler M., Howard A., Zhu M., et al. MobileNetV2: Inverted residuals and linear bottlenecks // arXiv:1801.04381 [cs]. 2019. Retrieved from http://arxiv.org/abs/1801.04381
Yu F., Seff A., Zhang Y., et al. LSUN: Construction of a largescale image dataset using deep learning with humans in the loop // arXiv:1506.03365 [cs]. 2016. Retrieved from http://arxiv.org/abs/1506.03365
Xiao J., Hays J., Ehinger K.A., et al. SUN database: Largescale scene recognition from abbey to zoo // 2010 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. 2010. P. 3485–3492. https://doi.org/10.1109/CVPR.2010.5539970
Victor J.D., Conte M.M., Chubb C.F. Textures as probes of visual processing // Annu. Rev. Vis. Sci. 2017. V. 3. № 1. P. 275–296. https://doi.org/10.1146/annurevvision102016061316
Uejima T., Niebur E., EtienneCummings R. Protoobject based saliency model with secondorder texture feature // 2018 IEEE Biomedical Circuits and Systems Conf. (BioCAS). Cleveland, OH: IEEE, 2018. P. 1–4. https://doi.org/10.1109/BIOCAS.2018.8584749
Williams C.C., Castelhano M.S. The changing landscape: Highlevel influences on eye movement guidance in scenes // J. Vision. 2019. V. 3. № 3. P. 33. https://doi.org/10.3390/vision3030033