ITMO
en/ en

ISSN: 1023-5086

en/

ISSN: 1023-5086

Научно-технический

Оптический журнал

Полнотекстовый перевод журнала на английский язык издаётся Optica Publishing Group под названием “Journal of Optical Technology“

Подача статьи Подать статью
Больше информации Назад

DOI: 10.17586/1023-5086-2022-89-08-08-23

УДК: 004.93.12, 004.932.72.1, 004.832.2

Обучение динамически конфигурируемого классификатора с использованием глубокого Q-обучения

Ссылка для цитирования:

Малашин Р.О., Бойко А.А. Обучение динамически конфигурируемого классификатора с использованием глубокого Q-обучения // Оптический журнал. 2022. Т. 89. № 8. С. 8–23. http://doi.org/10.17586/1023-5086-2022-89-08-08-23

 

Malashin R.O., Boiko A.A. Training a dynamically configurable classifier with deep Q-learning  [in Russian] // Opticheskii Zhurnal. 2022. V. 89. № 8. P. 8–23. http://doi.org/10.17586/1023-5086-2022-89-08-08-23

Ссылка на англоязычную версию:

R. O. Malashin and A. A. Boiko, "Training a dynamically configurable classifier with deep Q-learning," Journal of Optical Technology. 89(8), 437-447 (2022). https://doi.org/10.1364/JOT.89.000437

Аннотация:

Предмет исследования. Были рассмотрены динамические сети, которые позволяют осуществлять вычисления, обусловленные входными данными. Цель работы. Исследовать возможности использования методов глубокого Q-обучения для создания таких сетей в задачах компьютерного зрения. Метод. В современных динамически конфигурируемых системах анализа изображений принято использовать алгоритм градиентов по стратегиям. Нами предложен метод гибридного Q-обучения агента для классификации изображений с учётом ограничения на доступные вычислительные ресурсы. Мы обучаем агента воспринимать изображения через набор предварительно обученных классификаторов и хотим, чтобы результирующая динамически конфигурируемая система была способна построить вычислительный граф с учётом ограничения на количество операций и с такой траекторией, которая относится к максимальной ожидаемой точности. Агент получает вознаграждение только в том случае, если изображение распознано правильно, при этом количество возможных действий для него ограничено. Были проведены эксперименты с базой данных изображений CIFAR-10 и набором из шести внешних классификаторов, которыми учился управлять агент. В соответствии с приведёнными экспериментами стандартный метод глубокого обучения по ценностям действий (DQN, Deep Q-Network) не позволяет агенту выучить стратегий, отличимых от случайных по точности распознавания. В связи с этим предложена архитектура Q-КНД (Q-классификатор наименьшего действия), которая аппроксимирует требуемую функцию выбора классификатора с помощью обучения с подкреплением, а функцию предсказания метки с помощью обучения с учителем. Основные результаты. Обученный агент значительно превзошёл случайные стратегии по точности распознавания (уменьшает ошибку на 9,65%). Показано, что такой агент явно может использовать информацию от нескольких классификаторов, т.к. точность при увеличении допустимого количества действий растёт. Практическая значимость. Наше исследование показывает, что модифицированный метод глубокого Q-обучения демонстрирует способность извлекать информацию из разреженных откликов классификаторов так же хорошо, как классификатор наименьшего действия, обученный методом градиента по стратегиям. При этом предложенный в этой работе метод не требовал создания специальных функций потерь.

Ключевые слова:

динамически конфигурируемые вычисления, принцип наименьшего действия, обучение с подкреплением, ансамбль методов, детерминированное планирование, анализ изображений, классификация изображений

Благодарность:

Исследование выполнено при поддержке Российского научного фонда (проект № 19–71–00146).

Коды OCIS: 150.1135, 100.4996

Список источников:

1. Bengio E., Bacon P.L., Pineau J., Precup D. Conditional computation in neural networks for faster models // URL: https://arxiv.org/abs/1511.06297 (accessed 01.04.2022).
2. Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G., Dean J. Outrageously large neural networks: The sparsely gated mixture-of-experts layer // URL: https://arxiv.org/abs/1701.06538 (accessed: 01.04.2022).
3. Bolukbasi T., Wang J., Dekel O., Saligrama V. Adaptive neural networks for efficient inference // International Conference on Machine Learning. 2017. Sydney, Australia. August 6–11. P. 527–536.
4. Ruiz A., Verbeek J. Adaptative inference cost with convolutional neural mixture models // International Conference on Computer Vision. 2019. Seoul, Republic of Korea. October 27 to November 2. P. 1872–1881.
5. Wang Y., Lv K., Huang R., Song S., Yang L., Huang G. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification // Advances in Neural Information Processing Systems. 2020. V. 33. P. 2432–2444.
6. Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. ImageNet: A large-scale hierarchical image database // IEEE Conference on Computer Vision and Pattern Recognition. 2009. Miami, Florida, USA. June 20–25. P. 248–255. DOI: 10.1109/CVPR.2009.5206848.
7. Cheng A.C., Lin C.H., Juan D.C., Wei W., Sun M. InstaNAS: Instance-aware neural architecture search // Proceedings of the AAAI Conference on Artificial Intelligence. 2020. New York, USA. February 7–12. V. 34. № 4. P. 3577–3584.
8. Malashin R.O. Principle of least action in dynamically configured image analysis systems // Journal of Optical Technology. 2019. V. 86. № 11. P. 678–685.
9. Biedenkapp A., Bozkurt H.F., Eimer T., Hutter F., Lindauer M. Dynamic algorithm configuration: Foundation of a new meta-algorithmic framework // Proceedings of the Twenty-fourth European Conference on Artificial Intelligence. 2020. Santiago de Compostela, Spain. 29 August — 8 September. P. 427–434. DOI: 10.3233/FAIA200122
10. Полак Л.С. Вариационные принципы механики. М.: Физматлит, 1959. 930 с.
11. Шелепин Ю.Е., Красильников Н.Н. Принцип наименьшего действия, физиология зрения и условнорефлекторная теория // Российский физиологический журнал им. И.М. Сеченова. 2003. Т. 89. № 6. С. 725–730.
12. Malashin R.O. Sparsely ensembled convolutional neural network classifiers via reinforcement learning // The 6th International Conference on Machine Learning Technologies. 2021. April 23–25. Jeju Island, Republic of Korea. P. 102–110.
13. Van de Wiele T., Warde-Farley D., Mnih A., Mnih V. Q-learning in enormous action spaces via amortized approximate maximization // URL: https://arxiv.org/abs/2001.08116 (accessed 01.04.2022)
14. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. № 7540. P. 529–533.
15. Wolpert D.H. Stacked generalization // Neural Networks. 1992. V. 5. № 2. P. 241–259. DOI:10.1016/S0893-6080(05)80023-1
16. Lapan M. Deep reinforcement learning hands-on: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more. 2nd ed. Birmingham: Packt Publishing Ltd, 2020. 799 p.