DOI: 10.17586/1023-5086-2022-89-02-25-35
УДК: 004.932.4
Исследование способностей нейронных сетей к извлечению и использованию семантической информации при обучении восстановлению зашумлённых изображений
Полный текст на elibrary.ru
Публикация в Journal of Optical Technology
Титаренко М.А., Малашин Р.О. Исследование способностей нейронных сетей к извлечению и использованию семантической информации при обучении восстановлению зашумлённых изображений // Оптический журнал. 2022. Т. 89. №2. С. 25–35. http://doi.org/ 10.17586/1023-5086-2022-89-02-25-35
Titarenko M.A., Malashin R.O. Study of the ability of neural networks to extract and use semantic information when they are trained to reconstruct noisy images [in Russian] // Opticheskii Zhurnal. 2022. V. 89. № 2. P. 25–35. http://doi.org/ 10.17586/1023-5086-2022-89-02-25-35
Mikhail Alekseevich Titarenko and Roman Olegovich Malashin, "Study of the ability of neural networks to extract and use semantic information when they are trained to reconstruct noisy images," Journal of Optical Technology. 89(2), 81-88 (2022). https://doi.org/10.1364/JOT.89.000081
Предмет исследования. В работе исследуются глубокие свёрточные нейронные сети, выполняющие задачу улучшения изображений в условиях шума, которые получают на вход дополнительную информацию об объектах на изображении в виде масок сегментации. Исследуется несколько способов использования семантической информации в процессе работы сети. Во-первых, путём подачи маски вместе с изображением на вход сети, а во-вторых, путём создания функции потерь с использованием маски сегментации. Метод. Проведено несколько серий экспериментов с различными типами использования семантической информации и без её использования. Эксперименты проводились с несколькими интенсивностями шума. Выполнен анализ качества восстановления изображения в целом и качества восстановления области изображений, соответствующих целевому классу. Класс дорожных знаков был выбран в качестве целевого, поскольку обладает меньшей изменчивостью, чем многие другие классы, что даёт преимущество сети при его восстановлении при наличии семантической информации, чем без таковой. В ходе исследования использовался набор данных COCO с размеченными картами сегментации. Для анализа семантических свойств всех объектов, содержащихся в наборе COCO, на восстановление изображений было разработано тестовое окружение с возможностью визуализации результатов тестирования, что позволило сделать некоторые полезные выводы о том, как различные свойства объектов влияют на точность их восстановления. Основные результаты. Мы показываем, что в условиях сильного шума сеть реконструкции, обученная с использованием дополнительной информации в виде масок сегментации, может лучше восстанавливать объекты, соответствующие маскам (на 3,5%), при этом способность сети восстанавливать все изображение существенно не падает (на 0,4%), однако для слабого и среднего шума такого прироста качества не получено. Практическая значимость. В работе мы ставили цель не создать законченный алгоритм и архитектуру нейронной сети, а лишь исследовать возможные свойства подобных алгоритмов, поэтому мы подавали на вход нейронных сетей эталонные семантические разметки. При доработке такой метод может быть дополнен сетью-сегментатором, которая бы извлекала информацию автоматически из зашумлённого изображения (в этом случае сам процесс улучшения может быть итеративным — после сегментирования изображение улучшается, а по улучшенному изображению строится уточнённая маска сегментации).
улучшение изображений, сегментация изображений, глубокие нейронные сети
Коды OCIS: 150.1135, 100.2980
Список источников:1. Zhang K., Zuo W., Chen Y., Meng D., Zhang L. Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising // IEEE Transactions on Image Processing. 2017. V. 26. P. 3142–3155.
2. Mao X.J., Shen C., Yang Y.-B. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections // Advances in Neural Information Processing Systems. 2016. P. 2802–2810.
3. Anwar S., Barnes N. Real image denoising with feature attention // IEEE International Conference on Computer Vision. 2019. P. 1–10.
4. Remez T., Litany O., Giryes R. Deep class aware denoising // International conference on sampling theory and application. 2017. P. 138–142.
5. Lucas A., Lopez-Tapia S., Molina R. et al. Generative adversarial networks and perceptual losses for video super-resolution // IEEE Transactions on Image Processing. 2019. P. 3312–3327.
6. Titarenko M.A., Malashin R.O. Image enhancemen by deep neural networks using high-level information // Journal of Optical Technology. 2020. V. 87. № 10. P. 604–610.
7. Jin L., Zhang W., Ma G., Song E. Learning deep CNNs for impulse noise removal in images // Journal of Visual Communication and Image Representation. 2019. V. 62. № 7. P. 193–205.
8. Zhou S., Hu Y., Jiang H. Multi-view image denoising using convolutional neural network // Sensors (Basel). 2019. № 6. P. 1–24.
9. Zhang K., Li Y., Zuo W., Zhang L., Gool L.V., Timofte R. Plug-and-play image restoration with deep denoiser prior // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021. 14 June. P. 1–17.
10. Heinrichheinrich M., Stille M., Buzug T. Residual U-Net convolutional neural network architecture for low-dose CT denoising // Current directions in biomedical engineering. 2018. P. 297–300.
11. Reymann M., Würfl T., Ritt P., Stimpel B., Cachovan M., Vija A.H., Maier A. U-Net for SPECT image denoising // IEEE Nuclear Science Symposium and Medical Imaging Conference. 2019. P. 1–2.
12. Crespo J.M., Moreno1 V., Juan Ramon Rabunal, Pazos A., Carbia M.C. Fringe pattern denoising using U-Net based neural network // EPJ Web of Conferences. 2020 P. 1–2.
13. Feng Z., Li Z., Cai A., Li L., Yan B., Tong L. A preliminary study on projection denoising for low-dose CT imaging using modified dual-domain U-net // 3rd International Conference on Artificial Intelligence and Big Data. Chengdu, China. 28-31 May 2020. P. 1–4.
14. Lin T., Maire M., Belongie S., Hays J., Perona P., Ramanan D., Dollár P., Zitnick L. Microsoft COCO: Common Objects in Context // European Conference on Computer Vision. Zurich, Switzerland. 6–12 September 2014. P. 740–755.
15. Kingma D., Ba J. Adam: A method for stochastic optimization // URL: https://arxiv.org/pdf/1412.6980. pdf (accessed: 2.11.2021).