Обучение нейронных сетей для классификации тепловизионных изображений на основе изображений видимого спектра

Ермаченкова М.К., Малашин Р.О., Бойко А.А.

Полный текст на elibrary.ru

Публикация в Journal of Optical Technology

Ссылка для цитирования:

Ермаченкова М.К., Малашин Р.О., Бойко А.А. Обучение нейронных сетей для классификации тепловизионных изображений на основе изображений видимого спектра // Оптический журнал. 2023. Т. 90. № 10. С. 48–66. http://doi.org/10.17586/1023-5086-2023-90-10-48-66

Ermachenkova M.K., Malashin R.O., Boiko A.A. Neural network training for thermal image classification based on visible spectrum images [In Russian] // Opticheskii Zhurnal. 2023. V. 90. № 10. P. 48–66. http://doi.org/10.17586/10235086202390104866

Ссылка на англоязычную версию:

M. K. Ermachenkova, R. O. Malashin, and A. A. Boiko, "Neural network training for thermal image classification based on visible spectrum images," Journal of Optical Technology. 90(10), 590-600 (2023). https://doi.org/10.1364/JOT.90.000590

Аннотация:

Предмет исследования. Были рассмотрены методы аугментации изображений видимого спектра в задачах классификации тепловизионных изображений. Цель работы. Исследовать способы повышения обобщающей способности нейронных сетей, обученных на изображениях видимого спектра, для распознавания тепловизионных изображений. Метод. Существующие наборы тепловизионных изображений имеют ограниченный размер, и для получения таких данных требуется дорогостоящее оборудование. В то же время, классификаторы, обученные на данных видимого спектра, показывают низкую точность классификации на данных других оптических диапазонов. Существуют различные методы обогащения наборов тепловизионных данных для решения задачи распознавания объектов, например, с использованием синтезированных изображений, однако, такие подходы требуют использования тепловизионных изображений в той или иной форме, что накладывает ограничение на возможности их применения. Между тем, существуют художественные методы моделирования сцен дальней инфракрасной области спектра на основе изображений видимого спектра, с помощью которых визуальное сходство достигается, например, за счёт коррекции контраста и преобразования значений цветовых каналов. Нами был предложен и исследован метод предварительного преобразования изображений, чтобы определить, способна ли нейронная сеть извлекать из модифицированных изображений видимого спектра признаки, достаточные для обобщения на тепловизионные данные. Основные результаты. Благодаря подобранному методу аугментации и подготовки данных видимого спектра, уровень ошибок классификации сократился с 17% до 6%. Практическая значимость. Наше исследование показывает, что предложенный метод обучения позволил повысить точность классификации тепловизионных данных без использования изображений соответствующего спектра в обучающей выборке. Такой подход может быть использован как метод обогащения данных, например, если имеющиеся ресурсы для получения тепловизионных данных ограничены.

Ключевые слова:

классификация тепловизионных изображений, методы аугментации данных, тепловизионный инфракрасный диапазон, обучение нейронных сетей

Коды OCIS: 150.1135, 100.4996

Список источников:

Mittal U., Srivastava S., Chawla P. Object detection and classification from thermal images using region based convolutional neural network // Journal of Computer Science. 2019. V. 15. № 7. P. 961–971. https://doi.org/10.3844/jcssp.2019.961.971
FLIR Systems. Inc. Free FLIR thermal dataset for algorithm training. [Электронный ресурс — описание набора данных] Режим доступа: https://www.flir.com/oem/adas/adasdatasetagree (дата доступа: 13.06.2022)
Qirat Ashfaq, Usman Akram, Roshaan Zafar. Thermal image dataset for object classification. [Электронный ресурс — описание набора данных] Mendeley Data. 2021. Ver 1. https://doi.org/10.17632/btmrycjpbj.1
Cook J. Chips thermal face dataset [Электронный ресурс — описание набора данных] (дата обновления: 29.03.2021) Режим доступа: https://www.kaggle.com/kagglechip/chipsthermalfacedataset (дата обращения: 30.04.2022)
Miller D., Boyang Song, Farnsworth M., Divya Tiwari. PitchIn LBAM thermal imaging dataset” [Электронный ресурс, описание набора данных] (дата обновления: 14.05.2021) Режим доступа: https://www.kaggle.com/dbmiller/pitchinlbamthermalimagingdataset (дата обращения: 30.04.2022)
Farzeen Munir, Shoaib Azam, Muhammd Aasim Rafique, Ahmad Muqeem Sheri, Moongu Jeon, Witold Pedrycz. Exploring thermal images for object detection in underexposure regions for autonomous driving // Applied Soft Computing. May 2022. V. 121. № C. https://doi.org/10.1016/j.asoc.2022.108793.
Zhou Hang, Min Sun, Xiang Ren, Xiuyuan Wang. Visiblethermal image object detection via the combination of illumination conditions and temperature information // Remote Sensing. 2021. V. 13. № 18. P. 3656. https://doi.org/10.3390/rs13183656
Tsurkov V.I, Grinchuk O.V. Cyclic generative neural networks to improve face recognition in nonstandard domains // Journal of Computer and Systems Sciences International. 2018. V. 57. № 4. P. 620–625. https://doi.org/10.1134/S1064230718040093
Dai Xuerui, Yuan Xue, Wei Xueye. TIRNet: Object detection in thermal infrared images for autonomous driving // Applied Intelligence. 2021. V. 51. P. 1–18. https://doi.org/10.1007/s10489020018822
Lee D.G., Jeon M.H., Cho Y., Kim A. Edgeguided multidomain RGBtoTIR image translation for training vision tasks with challenging labels // In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). May 29, 2023 — Jun 2, 2023. London, UK. P. 8291–8298. https://doi.org/10.1109/ICRA48891.2023.10161210
Akkaya B., Altinel F., Halici U. Selftraining guided adversarial domain adaptation for thermal imagery // Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), online, June 19–25. 2021. Nashville, TN, USA. P. 4317–4326. https://doi.org/10.1109/cvprw53098.2021.00488
Gundogdu E., Koç A., Alatan A.A. Object classification in infrared images using deep representations // 2016 IEEE International Conference on Image Processing (ICIP). Phoenix. Arizona. USA. 25–28 Sept. 2016. P. 1066–1070. https://doi.org/10.1109/ICIP.2016.7532521
Xu J., Vázquez D., Ramos S., López A.M., Ponsa D. Adapting a Pedestrian detector by boosting LDA exemplar classifiers // 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Portland, OR, USA, 2013, P. 688–693. https://doi.org/ 10.1109/CVPRW.2013.104
Feng D., HaaseSchütz C., Rosenbaum L., Hertlein H., Glaeser C., Timm F., Wiesbeck W., Dietmayer K. Deep multimodal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges // IEEE Transactions on Intelligent Transportation Systems. Feb 17, 2020. V. 22 № 3. P. 1341–1360. https://doi.org/ 10.1109/TITS.2020.2972974
Craig Boehman. How to create an infrared effect in Photoshop. [Электронный ресурс] (published 28.06.2022) URL: https://www.makeuseof.com/howtocreateaninfraredeffectinphotoshop/ (accessed 01.05.2023).
Shorten C., Khoshgoftaar T.M. A survey on image data augmentation for deep learning // J Big Data. 2019. V. 6. № 60. P. 1–48. https://doi.org/10.1186/s4053701901970
Haeberli P., Voorhies В. Image processing by linear interpolation and extrapolation // IRIS Universe Magazine. 1994. V. 28. P. 8–9.
Gonzalez R.C., Woods R.E. Digital image processing (4th ed.). New York, NY: Pearson, 2018. P. 138–140.
Leo Levi. Unsharp masking and related image enhancement techniques // Computer Graphics and Image Processing. 1974. V. 3. № 2. P. 163–177.
Wightman R. PyTorch Image Models. GitHub repository. 2019. [Электронный ресурс] Режим доступа: https://github.com/rwightman/pytorchimagemodels. (дата обращения: 30.04.2023) https://doi.org/10.5281/zenodo.4414861 Wightman, R. PyTorch Image Models. GitHub repository. 2019. URL: https://github.com/rwightman/pytorchimagemodels (accessed 30.04.2023). https://doi.org/10.5281/zenodo.4414861
Deng J., Dong W., Socher R., Li L.J., Kai Li, Li FeiFei. ImageNet: A largescale hierarchical image database // 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA. 2009. P. 248–255. https://doi.org/ 10.1109/CVPR.2009.5206848
Малашин Р.О., Кадыков А.Б. Исследование обобщающих способностей сверточных нейронных сетей при формировании признаков, инвариантных к вращению // Оптический журнал. 2015. Т. 82. № 8. С. 24–32.
He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. June 27 — June 30. 2016. Las Vegas, Nevada, US. P. 770–778. https://doi.org/10.48550/arXiv.1512.03385
Tan M., Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks // Proceedings of the 36th International Conference on Machine Learning. PMLR. 9–15 June 2019. Long Beach. California. USA. V. 97. P. 6105–6114. https://doi.org/10.48550/arXiv.1905.11946
Murphy Kevin P. Machine learning: a probabilistic perspective. Cambridge, Massachusetts, USA: MIT Press, 2012. 1067 p.
Hinton G. Coursera neural networks for machine learning. Lecture 6. 2018. [Электронный ресурс] Режим доступа: https://www.coursera.org/learn/neuralnetworksdeeplearning (дата обращения: 30.04.2023).
Cubuk E.D., Zoph B., Shlens J., Le Q.V. RandАugment: Practical automated data augmentation with a reduced search space // IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, WA, USA. June 14–19 2020.P. 3008–3017. https://doi.org/10.1109/CVPRW50498.2020.00359
Cubuk E.D., Zoph B., Mané D., Vasudevan V., Le Q.V. AutoAugment: Learning augmentation strategies from data // IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. June 16–20. 2019. P. 113–123. https://doi.org/10.1109/CVPR.2019.00020
Hendrycks D., Mu N., Cubuk E.D., Zoph B., Gilmer J., Lakshminarayanan B. Augmix: A simple data processing method to improve robustness and uncertainty // [Электронный ресурс] arXiv preprint arXiv:1912.02781 (дата обновления: 17 февраля 2020). https://doi.org/10.48550/arXiv.1912.02781 (дата обращения 30.04.2023).
Zhong Zhun, Liang Zheng, Guoliang Kang, Shaozi Li, Yi Yang. Random erasing data augmentation // Proceedings of the AAAI conference on artificial intelligence. 2020. V. 34. № 7. P. 13001–13008. https://doi.org/10.48550/arXiv.1708.04896