ITMO
en/ en

ISSN: 1023-5086

en/

ISSN: 1023-5086

Научно-технический

Оптический журнал

Полнотекстовый перевод журнала на английский язык издаётся Optica Publishing Group под названием “Journal of Optical Technology“

Подача статьи Подать статью
Больше информации Назад

DOI: 10.17586/1023-5086-2023-90-01-37-48

УДК: 004.93

Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры

Ссылка для цитирования:

Явна Д.В., Бабенко В.В., Горбенкова О.А., Плавельский И.В., Вороная В.Д., Столетний А.С. Категоризация объектов и сцен нейронной сетью, входы которой предварительно обучены декодированию пространственных неоднородностей текстуры // Оптический журнал. 2023. Т. 90. № 1. С. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

 

Yavna D.V., Babenko V.V., Gorbenkova O.A., Plavelsky I.V., Voronaya V.D., Stoletniy A.S. Categorization of objects and scenes by a neural network whose input modules are pretrained to decode spatial texture inhomogeneities [in Russian] // Opticheskii Zhurnal. 2023. V. 90. № 1. P. 37–48. http://doi.org/10.17586/1023-5086-2023-90-01-37-48

Ссылка на англоязычную версию:

D. V. Yavna, V. V. Babenko, O. A. Gorbenkova, I. V. Plavelsky, V. D. Voronaya, and A. S. Stoletniy, "Classification of objects and scenes by a neural network with pretrained input modules to decode spatial texture inhomogeneities," Journal of Optical Technology. 90(1), 20-25 (2023). https://doi.org/10.1364/JOT.90.000020

Аннотация:

Предмет исследования. Исследование возможности использования нейросетевых моделей зрительных механизмов второго порядка в качестве входов нейросетей-классификаторов. Зрительные механизмы второго порядка отвечают за обнаружение пространственных неоднородностей контраста, ориентации и пространственной частоты в изображении. Эти механизмы традиционно рассматриваются исследователями зрительной системы как одно из звеньев начальной зрительной обработки; хорошо изучена их роль в восприятии текстур. Цель работы — проверить, будет ли предварительное обучение входных модулей классификатора демодуляции пространственных модуляций градиентов яркости способствовать категоризации объектов и сцен. Метод. В качестве основного метода применялось нейросетевое моделирование. На первом этапе исследования была сгенерирована выборка текстурных изображений, используемая для обучения нейросетевых моделей зрительных механизмов второго порядка, и проведено обучение этих моделей. На втором этапе были подготовлены выборки объектов и сцен, на которых было проведено обучение сетей-классификаторов. На входе этих сетей располагались ранее обученные модели зрительных механизмов второго порядка с замороженными весами. Основные результаты. Информации второго порядка, представленной в виде карты мгновенных значений функции модуляции контраста, ориентации и пространственной частоты в изображении, может быть достаточно для идентификации только некоторых классов сцен. В целом, в рамках предложенных нейросетевых архитектур использование значений функции модуляции градиентов яркости для решения задачи классификации объектов оказалось малоэффективным. Таким образом, не подтвердилась гипотеза о том, что зрительные фильтры второго порядка кодируют признаки, позволяющие идентифицировать объект. Этот результат делает необходимым проверку альтернативной гипотезы, согласно которой роль фильтров второго порядка ограничивается задачей построения карт салиентности, а сами фильтры являются окнами, через которые поступает информация с выходов фильтров первого порядка. Практическая значимость. Проведена оценка возможностей использования моделей зрительных механизмов второго порядка в системах компьютерного зрения.

 

Благодарность: исследование выполнено при финансовой поддержке РФФИ, проект № 18-29-22001 МК «Исследование нейрокогнитивных технологий управления вниманием и формирования ментальных репрезентаций визуального интернет-контента».

Ключевые слова:

Ключевые слова: механизмы зрительной обработки, текстура, сверточная нейронная сеть, нейросеть-классификатор, машинное зрение

Коды OCIS: 100.4996, 330.5370

Список источников:
  1. Treisman A.M., Gelade G. A feature­integration theory of attention // Cognitive Psychology. 1980. V. 12. № 1. P. 97–136.
  2. Sutter A., Beck J., Graham N.V. Contrast and spatial variables in texture segregation: testing a simple spatial­frequency channels model // Percept. Psychophys. 1989. V. 46. № 4. P. 312–332.
  3. Mareschal I., Baker C.L. Temporal and spatial response to second­order stimuli in cat area 18 // J. Neurophysiol. 1998. V. 80. № 6. P. 2811–2823. https://doi.org/10.1152/jn.1998.80.6.2811
  4. Landy M.S., Oruç I. Properties of second­order spatial frequency channels // Vision Res. 2002. V. 42. № 19. P. 2311–2329. https://doi.org/10.1016/s0042­6989(02)00193­1
  5. Derrington A. Second­order visual processing // Optics & Photonics News. 2001. V. 12. № 1. P. 18. https://doi.org/10.1364/OPN.12.1.000018
  6. Huang P.­C., Chen C.­C. A comparison of pedestal effects in first­ and second­order patterns // J. Vision. 2014. V. 14. № 1. P. 9–9. https://doi.org/10.1167/14.1.9
  7. Sutter A., Sperling G., Chubb C. Measuring the spatial frequency selectivity of second­order texture mechanisms // Vision Res. 1995. V. 35. № 7. P. 915–924. https://doi.org/10.1016/0042­6989(94)00196­s
  8. Шелепин Ю.Е., Чихман В.Н., Вахрамеева О.А., Пронин С.В., Фореман Н., Пэсмор П. Инвариантность зрительного восприятия // Экспериментальная психология. 2008. Т. 1. № 1. С. 7–33. https://elibrary.ru/item.asp?id=3019577
  9. Graham N.V. Beyond multiple pattern analyzers modeled as linear filters (as classical V1 simple cells): useful additions of the last 25 years // Vision Res. 2011. V. 51. № 13. P. 1397–1430. https://doi.org/10.1016/j.visres.2011.02.007
  10. Babenko V.V., Ermakov P.N. Specificity of brain reactions to second­order visual stimuli // Vis Neurosci. 2015. V. 32. P. E011. https://doi.org/10.1017/S0952523815000085
  11. Ellemberg D., Allen H.A., Hess R.F. Second­order spatial frequency and orientation channels in human vision // Vision Res. 2006. V. 46. № 17. P. 2798–2803. https://doi.org/10.1016/j.visres.2006.01.028
  12. Kingdom F.A.A., Prins N., Hayes A. Mechanism independence for texture­modulation detection is consistent with a filter­rectify­filter mechanism // Vis Neurosci. 2003. V. 20. № 1. P. 65–76. https://doi.org/10.1017/s0952523803201073
  13. Schofield A., Cruickshank A. Transfer of tilt after­effects between second­order cues // Spatial Vis. 2005. V. 18. № 4. P. 379–397. https://doi.org/10.1163/1568568054389624
  14. Wolfe J.M. Visual search. Attention. Hove, England: Psychology Press/Erlbaum (UK) Taylor & Francis, 1998. P. 13–73.
  15. Бабенко В.В., Явна Д.В. Конкуренция за внимание пространственных модуляций градиентов яркости // Российский психологический журнал. 2018. Т. 15. № 3. С. 160–189. https://doi.org/10.21702/rpj.2018.3.8
  16. Yavna D.V., Babenko V.V., Ikonopistseva K.A. Neural network models of second order visual filters // Neural Networks and Neurotechnologies. St. Petersburg, Russia: ВВМ, 2019. P. 198–203.
  17. Явна Д.В., Бабенко В.В., Столетний А.С., Щетинина Д.П., Алексеева Д.С. Различение и декодирование пространственных модуляций текстур многослойными сверточными нейросетями // Вестник РФФИ. 2019. № 4(104). С. 94–104. https://doi.org/10.22204/2410­4639­2019­104­04­94­104
  18. Frey H.­P., König P., Einhäuser W. The role of first­ and second­order stimulus features for human overt attention // Percept Psychophys. 2007. V. 69. № 2. P. 153–161. https://doi.org/10.3758/bf03193738
  19. Johnson A., Zarei A. Second­order saliency predicts observer eye movements when viewing natural images // Jю Vision. 2010. V. 10. № 7. P. 526–526. https://doi.org/10.1167/10.7.526
  20. Gavrikov P. Программное обеспечение Visualkeras [режим доступа]: https://github.com/paulgavrikov/visualkeras
  21. Prins N., Kingdom F.A.A. Detection and discrimination of texture modulations defined by orientation, spatial frequency, and contrast // JOSA. A. 2003. V. 20. № 3. P. 401. https://doi.org/10.1364/JOSAA.20.000401
  22. Sandler M., Howard A., Zhu M., et al. MobileNetV2: Inverted residuals and linear bottlenecks // arXiv:1801.04381 [cs]. 2019. Retrieved from http://arxiv.org/abs/1801.04381
  23. Yu F., Seff A., Zhang Y., et al. LSUN: Construction of a large­scale image dataset using deep learning with humans in the loop // arXiv:1506.03365 [cs]. 2016. Retrieved from http://arxiv.org/abs/1506.03365
  24. Xiao J., Hays J., Ehinger K.A., et al. SUN database: Large­scale scene recognition from abbey to zoo // 2010 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. 2010. P. 3485–3492. https://doi.org/10.1109/CVPR.2010.5539970
  25. Victor J.D., Conte M.M., Chubb C.F. Textures as probes of visual processing // Annu. Rev. Vis. Sci. 2017. V. 3. № 1. P. 275–296. https://doi.org/10.1146/annurev­vision­102016­061316
  26. Uejima T., Niebur E., Etienne­Cummings R. Proto­object based saliency model with second­order texture feature // 2018 IEEE Biomedical Circuits and Systems Conf. (BioCAS). Cleveland, OH: IEEE, 2018. P. 1–4. https://doi.org/10.1109/BIOCAS.2018.8584749
  27. Williams C.C., Castelhano M.S. The changing landscape: High­level influences on eye movement guidance in scenes // J. Vision. 2019. V. 3. № 3. P. 33. https://doi.org/10.3390/vision3030033