Динамическая остановка вычислений в системах компьютерного зрения

Полный текст на elibrary.ru

Публикация в Journal of Optical Technology

Ссылка для цитирования:

Малашин Р.О. Динамическая остановка вычислений в системах компьютерного зрения // Оптический журнал. 2022. Т. 89. № 8. С. 54–63. http://doi.org/ 10.17586/1023-5086-2022-89-08-54-63

Malashin R.O. Dynamic termination of computations in computer vision systems [in Russian] // Opticheskii Zhurnal. 2022. V. 89. № 8. P. 54–63. http://doi.org/ 10.17586/1023-5086-2022-89-08-54-63

Ссылка на англоязычную версию:

R. O. Malashin, "Dynamic termination of computations in computer vision systems," Journal of Optical Technology. 89(8), 469-475 (2022). https://doi.org/10.1364/JOT.89.000469

Аннотация:

Предмет исследования. Рассмотрены два класса динамически конфигурируемых систем компьютерного зрения, обучающихся с помощью алгоритмов обучения с подкреплением. Первый класс моделей — модели управления визуальным вниманием, которые осуществляют распознавание изображений путём последовательного просмотра их фрагментов. Второй класс моделей — классификаторы наименьшего действия, которые анализируют изображения опосредованно путём последовательного вызова предобученных свёрточных нейронных сетей. Цель работы заключалась в исследовании возможности добавления в систему действий о прекращении вычислений для того, чтобы исследуемые модели имели возможность тратить больше ресурсов на анализ сложных изображений по сравнению с анализом более простых изображений. Метод. В исследуемые архитектуры была добавлена сеть остановки вычислений, которая принимает на вход вектор скрытого состояния системы, а возвращает сигнал о необходимости прекратить или продолжить вычисления. Использовалось трёхстадийное последовательное обучение отдельных модулей сетей и были проанализированы полученные стратегии просмотра изображений и выбора классификаторов. Основные результаты. По результатам экспериментов предложенная модель визуального внимания существенно превзошла существующие решения с динамической остановкой вычислений с точки зрения точности распознавания изображений базы данных MNIST и количества доступных агенту фрагментов изображения в среднем. Продемонстрирована важность последовательного обучения. Показано, что агент для разных изображений использует схожую стратегию управления вниманием, адаптируя её под конкретное изображение. Выявлен схожий эффект у известной модели визуального внимания, обученной на ImageNet. Для классификаторов наименьшего действия динамическая остановка вычислений также снизила среднее количество действий, необходимое для анализа изображений при заданной точности распознавания, хотя в этом случае прирост эффективности был менее выраженный. Практическая значимость. Разработанные в настоящей работе методы управления вниманием могут быть полезны для создания оптико-электронных систем с интеллектуальным управлением камеры с узкопольным объективом при распознавании целей. Технология, использованная в классификаторах наименьшего действия, может быть применена для сокращения вычислений в решениях, полученных с помощью алгоритма усреднения нескольких моделей Бэггинга.

Ключевые слова:

рекуррентная модель управления вниманием, классификатор наименьшего действия, динамически конфигурируемые системы, остановка вычислений

Благодарность:

Работа выполнена при финансовой поддержке гранта РНФ №19-71-00146.

Коды OCIS: 150.1135

Список источников:

1. Shelepin Y., Krasilnikov N., Trufanov G., Harauzov A., Pronin S., Foking A. The principle of least action and visual perception // Twentyninth European Conference on Visual Perception. Saint-Petersburg, Russia. August 2006. V. 35. P. 725–730.
2. Shelepin Y., Krasilnikov N. Principle of least action, physiology of vision and conditioned reflex theory // Rossi˜шш ıskii fiziologicheski˜шш ı zhurnal imeni I.M. Sechenova. 2003. V. 89. № 6. P. 725–730.
3. Malashin R. Principle of least action in dynamically configured image analysis systems // J. Opt. Technol. 2019. V. 86. № 11. P. 678–685.
4. Malashin R.O. Sparsely ensembled convolutional neural network classifiers via reinforcement learning // Proceedings of the 2021 6th International Conference on Machine Learning Technologies. April 2021. Jeju, South Korea. P. 102–110. DOI: https://doi.org/10.1145/3468891.3468906
5. Skuratova K.A., Shelepin E.Yu., Yarovaya N.P. Optical search and visual expertise // Journal of Optical Technology. 2021. V. 88. № 12. P. 700–705.
6. Biedenkapp A., Furkan Bozkurt H., Eimer T., Hutter F., Lindauer M. Dynamic algorithm configuration: Foundation of a new meta-algorithmic framework // In ECAI 2020: 24th European Conference on Artificial Intelligence. 29 August – 8 September 2020. Santiago de Compostela, Spain. P. 427–434.
7. Li Z., Yi Y., Liu X., Zhou F., Wen S., Xu W. Dynamic computational time for visual attention. 2017. URL: https://arxiv.org/abs/1703.10332 (accessed 01.04.2022).
8. Mnih V., Heess N., Graves A., Kavukcouglu K. Recurrent models of visual attention // NIPS Proceedings. 2014. URL: https://arxiv.org/abs/1406.6247 (accessed 03.05.2020).
9. Wang Y., Lv K., Huang R., Song S., Le Yang, Gao Huang. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification // NeurIPS. 2020. P. 2429–2441.
10. Yu K., Wang X., Dong C., Tang X., Loy C. Path-restore: Learning network path selection for image restoration. 2019. URL: https://arxiv.org/abs/1904.10343 (accessed 01.04.2022).

11. Huang C., Lucey S., Ramanan D. Learning policies for adaptive tracking with deep feature cascades // ICCV. Venice, Italy. 22–29 October 2017. P. 105–114. https://doi.org/10.1109/iccv.2017.21
12. Bolukbasi T., Wang J., Dekel O., Saligrama V. Adaptive neural networks for efficient inference // International Conference on Machine Learning. Sydney, Australia. August 2017. P. 527–536.
13. Ruiz A., Verbeek J. Adaptative inference cost with convolutional neural mixture models // ICCV. Seoul, South Korea. October 2019. P. 1872–1881.
14. Malashin R.O. Training an improved recurrent attention model using an alternative reward function // Journal of Optical Technology. 2021. V. 88. № 3. P. 127–130.
15. Cheng A., Lin C.H., Juan D., Sun M. InstaNAS: Instance-aware Neural Architecture Search. 2019. URL: https://arxiv.org/pdf/1811.10201.pdf
16. Ba J. Mnih V., Kavukcuoglu K. Multiple object recognition with visual attention. URL: https://arxiv.org/abs/1412.7755 (accessed 01.04.2022).