DOI: 10.17586/1023-5086-2023-90-10-48-66
УДК: 004.93'12
Обучение нейронных сетей для классификации тепловизионных изображений на основе изображений видимого спектра
Полный текст на elibrary.ru
Публикация в Journal of Optical Technology
Ермаченкова М.К., Малашин Р.О., Бойко А.А. Обучение нейронных сетей для классификации тепловизионных изображений на основе изображений видимого спектра // Оптический журнал. 2023. Т. 90. № 10. С. 48–66. http://doi.org/10.17586/1023-5086-2023-90-10-48-66
Ermachenkova M.K., Malashin R.O., Boiko A.A. Neural network training for thermal image classification based on visible spectrum images [In Russian] // Opticheskii Zhurnal. 2023. V. 90. № 10. P. 48–66. http://doi.org/10.17586/10235086202390104866
M. K. Ermachenkova, R. O. Malashin, and A. A. Boiko, "Neural network training for thermal image classification based on visible spectrum images," Journal of Optical Technology. 90(10), 590-600 (2023). https://doi.org/10.1364/JOT.90.000590
Предмет исследования. Были рассмотрены методы аугментации изображений видимого спектра в задачах классификации тепловизионных изображений. Цель работы. Исследовать способы повышения обобщающей способности нейронных сетей, обученных на изображениях видимого спектра, для распознавания тепловизионных изображений. Метод. Существующие наборы тепловизионных изображений имеют ограниченный размер, и для получения таких данных требуется дорогостоящее оборудование. В то же время, классификаторы, обученные на данных видимого спектра, показывают низкую точность классификации на данных других оптических диапазонов. Существуют различные методы обогащения наборов тепловизионных данных для решения задачи распознавания объектов, например, с использованием синтезированных изображений, однако, такие подходы требуют использования тепловизионных изображений в той или иной форме, что накладывает ограничение на возможности их применения. Между тем, существуют художественные методы моделирования сцен дальней инфракрасной области спектра на основе изображений видимого спектра, с помощью которых визуальное сходство достигается, например, за счёт коррекции контраста и преобразования значений цветовых каналов. Нами был предложен и исследован метод предварительного преобразования изображений, чтобы определить, способна ли нейронная сеть извлекать из модифицированных изображений видимого спектра признаки, достаточные для обобщения на тепловизионные данные. Основные результаты. Благодаря подобранному методу аугментации и подготовки данных видимого спектра, уровень ошибок классификации сократился с 17% до 6%. Практическая значимость. Наше исследование показывает, что предложенный метод обучения позволил повысить точность классификации тепловизионных данных без использования изображений соответствующего спектра в обучающей выборке. Такой подход может быть использован как метод обогащения данных, например, если имеющиеся ресурсы для получения тепловизионных данных ограничены.
классификация тепловизионных изображений, методы аугментации данных, тепловизионный инфракрасный диапазон, обучение нейронных сетей
Коды OCIS: 150.1135, 100.4996
Список источников:- Mittal U., Srivastava S., Chawla P. Object detection and classification from thermal images using region based convolutional neural network // Journal of Computer Science. 2019. V. 15. № 7. P. 961–971. https://doi.org/10.3844/jcssp.2019.961.971
- FLIR Systems. Inc. Free FLIR thermal dataset for algorithm training. [Электронный ресурс — описание набора данных] Режим доступа: https://www.flir.com/oem/adas/adasdatasetagree (дата доступа: 13.06.2022)
- Qirat Ashfaq, Usman Akram, Roshaan Zafar. Thermal image dataset for object classification. [Электронный ресурс — описание набора данных] Mendeley Data. 2021. Ver 1. https://doi.org/10.17632/btmrycjpbj.1
- Cook J. Chips thermal face dataset [Электронный ресурс — описание набора данных] (дата обновления: 29.03.2021) Режим доступа: https://www.kaggle.com/kagglechip/chipsthermalfacedataset (дата обращения: 30.04.2022)
- Miller D., Boyang Song, Farnsworth M., Divya Tiwari. PitchIn LBAM thermal imaging dataset” [Электронный ресурс, описание набора данных] (дата обновления: 14.05.2021) Режим доступа: https://www.kaggle.com/dbmiller/pitchinlbamthermalimagingdataset (дата обращения: 30.04.2022)
- Farzeen Munir, Shoaib Azam, Muhammd Aasim Rafique, Ahmad Muqeem Sheri, Moongu Jeon, Witold Pedrycz. Exploring thermal images for object detection in underexposure regions for autonomous driving // Applied Soft Computing. May 2022. V. 121. № C. https://doi.org/10.1016/j.asoc.2022.108793.
- Zhou Hang, Min Sun, Xiang Ren, Xiuyuan Wang. Visiblethermal image object detection via the combination of illumination conditions and temperature information // Remote Sensing. 2021. V. 13. № 18. P. 3656. https://doi.org/10.3390/rs13183656
- Tsurkov V.I, Grinchuk O.V. Cyclic generative neural networks to improve face recognition in nonstandard domains // Journal of Computer and Systems Sciences International. 2018. V. 57. № 4. P. 620–625. https://doi.org/10.1134/S1064230718040093
- Dai Xuerui, Yuan Xue, Wei Xueye. TIRNet: Object detection in thermal infrared images for autonomous driving // Applied Intelligence. 2021. V. 51. P. 1–18. https://doi.org/10.1007/s10489020018822
- Lee D.G., Jeon M.H., Cho Y., Kim A. Edgeguided multidomain RGBtoTIR image translation for training vision tasks with challenging labels // In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). May 29, 2023 — Jun 2, 2023. London, UK. P. 8291–8298. https://doi.org/10.1109/ICRA48891.2023.10161210
- Akkaya B., Altinel F., Halici U. Selftraining guided adversarial domain adaptation for thermal imagery // Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), online, June 19–25. 2021. Nashville, TN, USA. P. 4317–4326. https://doi.org/10.1109/cvprw53098.2021.00488
- Gundogdu E., Koç A., Alatan A.A. Object classification in infrared images using deep representations // 2016 IEEE International Conference on Image Processing (ICIP). Phoenix. Arizona. USA. 25–28 Sept. 2016. P. 1066–1070. https://doi.org/10.1109/ICIP.2016.7532521
- Xu J., Vázquez D., Ramos S., López A.M., Ponsa D. Adapting a Pedestrian detector by boosting LDA exemplar classifiers // 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Portland, OR, USA, 2013, P. 688–693. https://doi.org/ 10.1109/CVPRW.2013.104
- Feng D., HaaseSchütz C., Rosenbaum L., Hertlein H., Glaeser C., Timm F., Wiesbeck W., Dietmayer K. Deep multimodal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges // IEEE Transactions on Intelligent Transportation Systems. Feb 17, 2020. V. 22 № 3. P. 1341–1360. https://doi.org/ 10.1109/TITS.2020.2972974
- Craig Boehman. How to create an infrared effect in Photoshop. [Электронный ресурс] (published 28.06.2022) URL: https://www.makeuseof.com/howtocreateaninfraredeffectinphotoshop/ (accessed 01.05.2023).
- Shorten C., Khoshgoftaar T.M. A survey on image data augmentation for deep learning // J Big Data. 2019. V. 6. № 60. P. 1–48. https://doi.org/10.1186/s4053701901970
- Haeberli P., Voorhies В. Image processing by linear interpolation and extrapolation // IRIS Universe Magazine. 1994. V. 28. P. 8–9.
- Gonzalez R.C., Woods R.E. Digital image processing (4th ed.). New York, NY: Pearson, 2018. P. 138–140.
- Leo Levi. Unsharp masking and related image enhancement techniques // Computer Graphics and Image Processing. 1974. V. 3. № 2. P. 163–177.
- Wightman R. PyTorch Image Models. GitHub repository. 2019. [Электронный ресурс] Режим доступа: https://github.com/rwightman/pytorchimagemodels. (дата обращения: 30.04.2023) https://doi.org/10.5281/zenodo.4414861 Wightman, R. PyTorch Image Models. GitHub repository. 2019. URL: https://github.com/rwightman/pytorchimagemodels (accessed 30.04.2023). https://doi.org/10.5281/zenodo.4414861
- Deng J., Dong W., Socher R., Li L.J., Kai Li, Li FeiFei. ImageNet: A largescale hierarchical image database // 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA. 2009. P. 248–255. https://doi.org/ 10.1109/CVPR.2009.5206848
- Малашин Р.О., Кадыков А.Б. Исследование обобщающих способностей сверточных нейронных сетей при формировании признаков, инвариантных к вращению // Оптический журнал. 2015. Т. 82. № 8. С. 24–32.
- He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. June 27 — June 30. 2016. Las Vegas, Nevada, US. P. 770–778. https://doi.org/10.48550/arXiv.1512.03385
- Tan M., Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks // Proceedings of the 36th International Conference on Machine Learning. PMLR. 9–15 June 2019. Long Beach. California. USA. V. 97. P. 6105–6114. https://doi.org/10.48550/arXiv.1905.11946
- Murphy Kevin P. Machine learning: a probabilistic perspective. Cambridge, Massachusetts, USA: MIT Press, 2012. 1067 p.
- Hinton G. Coursera neural networks for machine learning. Lecture 6. 2018. [Электронный ресурс] Режим доступа: https://www.coursera.org/learn/neuralnetworksdeeplearning (дата обращения: 30.04.2023).
- Cubuk E.D., Zoph B., Shlens J., Le Q.V. RandАugment: Practical automated data augmentation with a reduced search space // IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, WA, USA. June 14–19 2020.P. 3008–3017. https://doi.org/10.1109/CVPRW50498.2020.00359
- Cubuk E.D., Zoph B., Mané D., Vasudevan V., Le Q.V. AutoAugment: Learning augmentation strategies from data // IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. June 16–20. 2019. P. 113–123. https://doi.org/10.1109/CVPR.2019.00020
- Hendrycks D., Mu N., Cubuk E.D., Zoph B., Gilmer J., Lakshminarayanan B. Augmix: A simple data processing method to improve robustness and uncertainty // [Электронный ресурс] arXiv preprint arXiv:1912.02781 (дата обновления: 17 февраля 2020). https://doi.org/10.48550/arXiv.1912.02781 (дата обращения 30.04.2023).
- Zhong Zhun, Liang Zheng, Guoliang Kang, Shaozi Li, Yi Yang. Random erasing data augmentation // Proceedings of the AAAI conference on artificial intelligence. 2020. V. 34. № 7. P. 13001–13008. https://doi.org/10.48550/arXiv.1708.04896