Научно-технический
«ОПТИЧЕСКИЙ ЖУРНАЛ»
издается с 1931 года
 
   
Русский вариант сайта Английский вариант сайта
   
       
   
       
Статьи последнего выпуска

Электронные версии
выпусков начиная с 2008


Алфавитный указатель
2000-2010 гг


444
Архив оглавлений
выпусков 2002-2007 гг


Реквизиты и адреса

Вниманию авторов и рецензентов!
- Порядок публикации
- Порядок рецензирования статей
- Типовой договор
- Правила оформления
- Получение авторского вознаграждения
- Редакционная этика


Контакты

Подписка

Карта сайта




Журнал с 01.12.2015 допущен ВАК для публикации основных результатов диссертаций как издание, входящее в международные реферативные базы систем цитирования (Web Science, Scopus) (см. Vak.ed.gov.ru Перечень журналов МБД 16.03.2018г)

Аннотации (08.2022) : Обучение динамически конфигурируемого классификатора с использованием глубокого Q-обучения

Обучение динамически конфигурируемого классификатора с использованием глубокого Q-обучения

DOI: 10.17586/1023-5086-2022-89-08-08-23

УДК 004.93'12; 004.932.72’1; 004.832.2

Роман Олегович Малашин1, Арина Андреевна Бойко2*

 

1, 2Институт физиологии им. И. П. Павлова РАН, Санкт-Петербург, Россия

1, 2Санкт-Петербургский государственный университет аэрокосмического приборостроения, Санкт-Петербург, Россия

1malashinroman@mail.ru            https://orcid.org/0000-0002-2493-839X

2boikoaa@infran.ru       https://orcid.org/0000-0001-7520-0056

Аннотация

Предмет исследования. Были рассмотрены динамические сети, которые позволяют осуществлять вычисления, обусловленные входными данными. Цель работы. Исследовать возможности использования методов глубокого Q-обучения для создания таких сетей в задачах компьютерного зрения. Метод. В современных динамически конфигурируемых системах анализа изображений принято использовать алгоритм градиентов по стратегиям. Нами предложен метод гибридного Q-обучения агента для классификации изображений с учётом ограничения на доступные вычислительные ресурсы. Мы обучаем агента воспринимать изображения через набор предварительно обученных классификаторов и хотим, чтобы результирующая динамически конфигурируемая система была способна построить вычислительный граф с учётом ограничения на количество операций и с такой траекторией, которая относится к максимальной ожидаемой точности. Агент получает вознаграждение только в том случае, если изображение распознано правильно, при этом количество возможных действий для него ограничено. Были проведены эксперименты с базой данных изображений CIFAR-10 и набором из шести внешних классификаторов, которыми учился управлять агент.

В соответствии с приведёнными экспериментами стандартный метод глубокого обучения по ценностям действий (DQN, Deep Q-Network) не позволяет агенту выучить стратегий, отличимых от случайных по точности распознавания. В связи с этим предложена архитектура Q-КНД (Q-классификатор наименьшего действия), которая аппроксимирует требуемую функцию выбора классификатора с помощью обучения с подкреплением, а функцию предсказания метки с помощью обучения с учителем. Основные результаты. Обученный агент значительно превзошёл случайные стратегии по точности распознавания (уменьшает ошибку на 9,65%). Показано, что такой агент явно может использовать информацию от нескольких классификаторов, т.к. точность при увеличении допустимого количества действий растёт. Практическая значимость. Наше исследование показывает, что модифицированный метод глубокого Q-обучения демонстрирует способность извлекать информацию из разреженных откликов классификаторов так же хорошо, как классификатор наименьшего действия, обученный методом градиента по стратегиям. При этом предложенный в этой работе метод не требовал создания специальных функций потерь.

Ключевые слова: динамически конфигурируемые вычисления, принцип наименьшего действия, обучение с подкреплением, ансамбль методов, детерминированное планирование, анализ изображений, классификация изображений

Благодарность: исследование выполнено при поддержке Российского научного фонда (проект № 19–71–00146).

Ссылка для цитирования: Малашин Р.О., Бойко А.А. Обучение динамически конфигурируемого классификатора с использованием глубокого Q-обучения // Оптический журнал. 2022. Т. 89. № 8. С. 8–23. DOI: 10.17586/1023-5086-2022-89-08-08-23

Коды OCIS: 150.1135, 100.4996.

 

СПИСОК ИСТОЧНИКОВ 

1.    Bengio E., Bacon P.L., Pineau J., Precup D. Conditional computation in neural networks for faster models // URL: https://arxiv.org/abs/1511.06297 (accessed 01.04.2022).

2.   Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G., Dean J. Outrageously large neural networks: The sparsely gated mixture-of-experts layer // URL: https://arxiv.org/abs/1701.06538 (accessed: 01.04.2022).

3.   Bolukbasi T., Wang J., Dekel O., Saligrama V. Adaptive neural networks for efficient inference // International Conference on Machine Learning. 2017. Sydney, Australia. August 6–11. P. 527–536.

4.   Ruiz A., Verbeek J. Adaptative inference cost with convolutional neural mixture models // International Conference on Computer Vision. 2019. Seoul, Republic of Korea. October 27 to November 2. P. 1872–1881.

5.   Wang Y., Lv K., Huang R., Song S., Yang L., Huang G. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification // Advances in Neural Information Processing Systems. 2020. V. 33. P. 2432–2444.

6.   Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. ImageNet: A large-scale hierarchical image database // IEEE Conference on Computer Vision and Pattern Recognition. 2009. Miami, Florida, USA. June 20–25. P. 248–255. DOI: 10.1109/CVPR.2009.5206848.

7.    Cheng A.C., Lin C.H., Juan D.C., Wei W., Sun M. InstaNAS: Instance-aware neural architecture search // Proceedings of the AAAI Conference on Artificial Intelligence. 2020. New York, USA. February 7–12. V. 34. № 4. P. 3577–3584.

8.   Malashin R.O. Principle of least action in dynamically configured image analysis systems // Journal of Optical Technology. 2019. V. 86. № 11. P. 678–685.

9.   Biedenkapp A., Bozkurt H.F., Eimer T., Hutter F., Lindauer M. Dynamic algorithm configuration: Foundation of a new meta-algorithmic framework // Proceedings of the Twenty-fourth European Conference on Artificial Intelligence. 2020. Santiago de Compostela, Spain. 29 August — 8 September. P. 427–434. DOI: 10.3233/FAIA200122

10. Полак Л.С. Вариационные принципы механики. М.: Физматлит, 1959. 930 с.

11.  Шелепин Ю.Е., Красильников Н.Н. Принцип наименьшего действия, физиология зрения и условно-рефлекторная теория // Российский физиологический журнал им. И.М. Сеченова. 2003. Т. 89. № 6. С. 725–730.

12.  Malashin R.O. Sparsely ensembled convolutional neural network classifiers via reinforcement learning // The 6th International Conference on Machine Learning Technologies. 2021. April 23–25. Jeju Island, Republic of Korea. P. 102–110.

13.  Van de Wiele T., Warde-Farley D., Mnih A., Mnih V. Q-learning in enormous action spaces via amortized approximate maximization // URL: https://arxiv.org/abs/2001.08116 (accessed 01.04.2022)

14.  Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. № 7540. P. 529–533.

15.  Wolpert D.H. Stacked generalization // Neural Networks. 1992. V. 5. № 2. P. 241–259. DOI:10.1016/S0893-6080(05)80023-1

16.       Lapan M. Deep reinforcement learning hands-on: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more. 2nd ed. Birmingham: Packt Publishing Ltd, 2020. 799 p.