УДК: 004.931'1

Исследование обобщающих способностей сверточных нейронных сетей при формировании признаков, инвариантных к вращению

Полный текст на elibrary.ru

Публикация в Journal of Optical Technology

Ссылка для цитирования:

Малашин Р.О., Кадыков А.Б. Исследование обобщающих способностей сверточных нейронных сетей при формировании признаков, инвариантных к вращению // Оптический журнал. 2015. Т. 82. № 8. С. 24–32.

Malashin R.O., Kadykov A.B. Investigation of the generalizing capabilities of convolutional neural networks in forming rotation-invariant attributes [in Russian] // Opticheskii Zhurnal. 2015. V. 82. № 8. P. 24–32.

Ссылка на англоязычную версию:

R. O. Malashin and A. B. Kadykov, "Investigation of the generalizing capabilities of convolutional neural networks in forming rotation-invariant attributes," Journal of Optical Technology. 82(8), 509-515 (2015). https://doi.org/10.1364/JOT.82.000509

Аннотация:

Приведены результаты исследования возможностей сверточных нейронных сетей к обобщению знаний о примитивных геометрических преобразованиях изображений при решении задачи распознавания образов рукописных цифр. Эксперименты были направлены на изучение того, как на распознавание образов в произвольной ориентации влияет расширение обучающей выборки повернутыми изображениями. Приведены результаты для сверточных нейронных сетей двух архитектур, показывающие, что для обеспечения инвариантного к вращению распознавания необходимо наличие в обучающей выборке всех классов изображений во всем диапазоне поворотов.

Ключевые слова:

сверточные нейронные сети, обобщающая способность, инвариантное к вращению распознавание изображений

Благодарность:

Работа выполнена при поддержке Министерства Образования и Науки Российской Федерации и частично при государственной поддержке ведущих университетов Российской Федерации (субсидия 074-U01).

Коды OCIS: 100.4996, 100.5760

Список источников:

1. Large Scale Visual Recognition Challenge 2014 (ILSVRC2014). ILSVRC2014 results [official website]. URL: http://image-net.org/challenges/LSVRC/2014/results (accessed: 02.03.2015).
2. Krizhevsky A., Sutskever I., Hinton G. ImageNet classification with deep convolutional neural networks // Advances in Neural Information Processing. 2012. V. 25. P. 1097–1105.
3. Felzenszwalb P., Girshick R., McAllester D. Cascade object detection with deformable part models // Proceedings of the IEEE CVPR. June 13–18, 2010. San Francisco, USA. P. 2241–2248.
4. Wang X., Yang M., Zhu S., Lin Y. Regionlets for generic object detection // ICCV. December 1–8, 2013. Sydney, Australia. P. 17–24.
5. Lutsiv V., Potapov A., Novikova T., Lapina N. Hierarchical 3D structural matching in the aerospace photographs and indoor scenes // Proc. SPIE. 2005. V. 5807. P. 455–466.

6. Potapov A.S. Image matching with the use of the minimum description length approach // Proc. SPIE. 2004. V. 5426. P. 164–175.
7. Malashin R. Matching of aerospace photographs with the use of local features // Journal of Physics: Conference Series . 2014. V. 536. № 1. P. 012018.
8. Jerebko A., Barabanov N., Lutsiv V., Allinson N. Neural net based image matching // Proceedings of SPIE. 2000. V. 3962. P. 128–137.
9. Bengio Y., Monperrus M., Larochelle H. Non-local estimation of manifold structure // Neural Computation. 2006. V. 81. P. 2509–2528.
10. Caffe. Deep learning framework by the BVLC [official website]. URL: http://caffe.berkeleyvision.org/(accessed 14.02. 2015).
11. Jia Y., Shelhamer E., Donahue J., Karayev S., Long J., Girshick R., Guadarrama S., Darrell T. Caffe: Convolutional Architecture for Fast Feature Embedding // Proceedings of the ACM International Conference on Multimedia. USA, Orlando. November 03–07, 2014. P. 675–678.
12. Lecun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. № 11. P. 2278–2324.
13. The MNIST Database of handwritten digits [official website]. URL: http://yann.lecun.com/exdb/mnist/(accessed:02.03.2015).
14. Cuda-convnet. High-performance C++/CUDA implementation of convolutional neural networks [home page]. URL: https://code.google.com/p/cuda-convnet (accessed 14.02. 2015).
15. Learning Multiple Layers of Features from Tiny Images [tech report]. URL: http://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf (accessed 15.03.2015).
16. Russell B., Torralba A., Murphy K., Freeman W. Labelme: A database and web-based tool for image annotation // IJCV. May 2008. V. 77. P. 157–173.
17. Potapov A., Batishcheva V., Peterson M. Limited generalization capabilities of autoencoders with logistic regression on training sets of small sizes // IFIP Advances in Information and Communication Technology. 2014. V. 436. P. 256–264.