Научно-технический
«ОПТИЧЕСКИЙ ЖУРНАЛ»
издается с 1931 года
 
   
Русский вариант сайта Английский вариант сайта
   
       
   
       
Статьи последнего выпуска

Электронные версии
выпусков начиная с 2008


Алфавитный указатель
2000-2010 гг


444
Архив оглавлений
выпусков 2002-2007 гг


Реквизиты и адреса

Вниманию авторов и рецензентов!
- Порядок публикации
- Порядок рецензирования статей
- Типовой договор
- Правила оформления
- Получение авторского вознаграждения
- Редакционная этика


Контакты

Подписка

Карта сайта




Журнал с 01.12.2015 допущен ВАК для публикации основных результатов диссертаций как издание, входящее в международные реферативные базы систем цитирования (Web Science, Scopus) (см. Vak.ed.gov.ru Перечень журналов МБД 16.03.2018г)

Аннотации (08.2022) : Динамическая остановка вычислений в системах компьютерного зрения

Динамическая остановка вычислений в системах компьютерного зрения

DOI: 10.17586/1023-5086-2022-89-08-54-63

УДК 004.932.4, 004.81

Малашин Роман Олегович1, 2*

 

1Институт физиологии им. И.П. Павлова РАН, группа нейронных сетей и искусственного интеллекта, Санкт-Петербург, Россия

2Государственный университет аэрокосмического приборостроения, Санкт-Петербург, Россия

Аннотация

Предмет исследования. Рассмотрены два класса динамически конфигурируемых систем компьютерного зрения, обучающихся с помощью алгоритмов обучения с подкреплением. Первый класс моделей — модели управления визуальным вниманием, которые осуществляют распознавание изображений путём последовательного просмотра их фрагментов. Второй класс моделей — классификаторы наименьшего действия, которые анализируют изображения опосредованно путём последовательного вызова предобученных свёрточных нейронных сетей. Цель работы заключалась в исследовании возможности добавления в систему действий о прекращении вычислений для того, чтобы исследуемые модели имели возможность тратить больше ресурсов на анализ сложных изображений по сравнению с анализом более простых изображений. Метод. В исследуемые архитектуры была добавлена сеть остановки вычислений, которая принимает на вход вектор скрытого состояния системы, а возвращает сигнал о необходимости прекратить или продолжить вычисления. Использовалось трёхстадийное последовательное обучение отдельных модулей сетей и были проанализированы полученные стратегии просмотра изображений и выбора классификаторов. Основные результаты. По результатам экспериментов предложенная модель визуального внимания существенно превзошла существующие решения с динамической остановкой вычислений с точки зрения точности распознавания изображений базы данных MNIST и количества доступных агенту фрагментов изображения в среднем. Продемонстрирована важность последовательного обучения. Показано, что агент для разных изображений использует схожую стратегию управления вниманием, адаптируя её под конкретное изображение. Выявлен схожий эффект у известной модели визуального внимания, обученной на ImageNet. Для классификаторов наименьшего действия динамическая остановка вычислений также снизила среднее количество действий, необходимое для анализа изображений при заданной точности распознавания, хотя в этом случае прирост эффективности был менее выраженный. Практическая значимость. Разработанные в настоящей работе методы управления вниманием могут быть полезны для создания оптико-электронных систем с интеллектуальным управлением камеры с узкопольным объективом при распознавании целей. Технология, использованная в классификаторах наименьшего действия, может быть применена для сокращения вычислений в решениях, полученных с помощью алгоритма усреднения нескольких моделей Бэггинга.

Ключевые слова: рекуррентная модель управления вниманием, классификатор наименьшего действия, динамически конфигурируемые системы, остановка вычислений

Благодарность: работа выполнена при финансовой поддержке гранта РНФ №19-71-00146.

Ссылка для цитирования: Малашин Р.О. Динамическая остановка вычислений в системах компьютерного зрения // Оптический журнал. 2022. Т. 89. № 8. С. 54–63. DOI: 10.17586/1023-5086-2022-89-08-54-63

Коды OCIS: 150.1135.

 

СПИСОК ИСТОЧНИКОВ 

1.    Shelepin Y., Krasilnikov N., Trufanov G., Harauzov A., Pronin S., Foking A. The principle of least action and visual perception // Twentyninth European Conference on Visual Perception. Saint-Petersburg, Russia. August 2006. V. 35. P. 725–730.

2.   Shelepin Y., Krasilnikov N. Principle of least action, physiology of vision and conditioned reflex theory // Rossi˜шшıskii fiziologicheski˜шшı zhurnal imeni I.M. Sechenova. 2003. V. 89. № 6. P. 725–730.

3.   Malashin R. Principle of least action in dynamically configured image analysis systems // J. Opt. Technol. 2019. V. 86. № 11. P. 678–685.

4.   Malashin R.O. Sparsely ensembled convolutional neural network classifiers via reinforcement learning // Proceedings of the 2021 6th International Conference on Machine Learning Technologies. April 2021. Jeju, South Korea. P. 102–110. DOI: https://doi.org/10.1145/3468891.3468906

5.   Skuratova K.A., Shelepin E.Yu., Yarovaya N.P. Optical search and visual expertise // Journal of Optical Technology. 2021. V. 88. № 12. P. 700–705.

6.   Biedenkapp A., Furkan Bozkurt H., Eimer T., Hutter F., Lindauer M. Dynamic algorithm configuration: Foundation of a new meta-algorithmic framework // In ECAI 2020: 24th European Conference on Artificial Intelligence. 29 August – 8 September 2020. Santiago de Compostela, Spain. P. 427–434.

7.    Li Z., Yi Y., Liu X., Zhou F., Wen S., Xu W. Dynamic computational time for visual attention. 2017. URL: https://arxiv.org/abs/1703.10332 (accessed 01.04.2022).

8.   Mnih V., Heess N., Graves A., Kavukcouglu K. Recurrent models of visual attention // NIPS Proceedings. 2014. URL: https://arxiv.org/abs/1406.6247 (accessed 03.05.2020).

9.   Wang Y., Lv K., Huang R., Song S., Le Yang, Gao Huang. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification // NeurIPS. 2020. P. 2429–2441.

10. Yu K., Wang X., Dong C., Tang X., Loy C. Path-restore: Learning network path selection for image restoration. 2019. URL: https://arxiv.org/abs/1904.10343 (accessed 01.04.2022).

11.  Huang C., Lucey S., Ramanan D. Learning policies for adaptive tracking with deep feature cascades // ICCV. Venice, Italy. 22–29 October 2017. P. 105–114. https://doi.org/10.1109/iccv.2017.21

12.  Bolukbasi T., Wang J., Dekel O., Saligrama V. Adaptive neural networks for efficient inference // International Conference on Machine Learning. Sydney, Australia. August 2017. P. 527–536.

13.  Ruiz A., Verbeek J. Adaptative inference cost with convolutional neural mixture models // ICCV. Seoul, South Korea. October 2019. P. 1872–1881.

14.  Malashin R.O. Training an improved recurrent attention model using an alternative reward function // Journal of Optical Technology. 2021. V. 88. № 3. P. 127–130.

15.  Cheng A., Lin C.H., Juan D., Sun M. InstaNAS: Instance-aware Neural Architecture Search. 2019. URL: https://arxiv.org/pdf/1811.10201.pdf

16.       Ba J. Mnih V., Kavukcuoglu K. Multiple object recognition with visual attention. URL: https://arxiv.org/abs/1412.7755 (accessed 01.04.2022).