Исследование устойчивости условной генеративно-состязательной сети Pix2Pix к искажению входных данных разметки изображений

Полный текст на elibrary.ru

Публикация в Journal of Optical Technology

Ссылка для цитирования:

Ячная В.О., Луцив В.Р. Исследование устойчивости условной генеративно-состязательной сети Pix2Pix к искажению входных данных разметки изображений // Оптический журнал. 2021. Т. 88. № 11. С. 46–55. http://doi.org/10.17586/1023-5086-2021-88-11-46-55

Yachnaya V.O., Lutsiv V.R. Stability investigation of the Pix2Pix conditional generative adversarial network with respect to input semantic image labeling data distortion [in Russian] // Opticheskii Zhurnal. 2021. V. 88. № 11. P. 46–55. http://doi.org/10.17586/1023-5086-2021-88-11-46-55

Ссылка на англоязычную версию:

V. O. Yachnaya and V. R. Lutsiv, "Stability investigation of the Pix2Pix conditional generative adversarial network with respect to input semantic image labeling data distortion," Journal of Optical Technology. 88(11), 647-653 (2021). https://doi.org/10.1364/JOT.88.000647

Аннотация:

Исследуются особенности генерации изображений предварительно обученной Условной генеративно-состязательной сетью на основе семантической разметки сцены. Семантическая разметка может быть составлена неточно и содержать дефекты, возникшие, например, вследствие преобразований графических форматов, в которых она хранилась или передавалась. Рассматриваются случаи генерации изображений на основе таких некорректных данных — при модификации цветового тона, насыщенности и яркости цветов в цветовых метках различных классов объектов. Определено, что особенно сильное влияние оказывает изменение цветового тона метки, часто приводящее к смене класса, которому она соответствует, поэтому при выборе цветового набора для аннотации пикселов следует учитывать равномерность распределения цветовых параметров по цветовой шкале и следить за точностью представления цветовых семантических меток.

Ключевые слова:

искусственный интеллект, компьютерное зрение, искусственная нейронная сеть, синтетические данные, условная генеративно-состязательная нейронная сеть, семантическая разметка

Коды OCIS: 110.0110, 110.2960, 100.0100, 100.2000, 100.4994

Список источников:

1. Yamauchi H., Haber J., Seidel H.-P. Image restoration using multiresolution texture synthesis and image inpainting // Proc. Computer Graphics International. 2003. Tokyo, Japan. P. 120–125.

2. Roberts M., Paczan N. Hypersim: A photorealistic synthetic dataset for holistic indoor scene understanding. [Электронный ресурс] / arxiv.org: информационный ресурс. URL: https://arxiv.org/pdf/2011.02523. pdf (дата обращения: 27.08.2021).
3. Nikolenko S.I. Synthetic data for deep learning. 2019. [Электронный ресурс] /arxiv.org: информационный ресурс. URL: https://arxiv.org/pdf/1909.11512.pdf (дата обращения: 26.08.2021).
4. Zhang H., Xu T., Li H., Zhang S. StackGAN++: Realistic image synthesis with stacked generative adversarial networks // IEEE Trans. Pattern Analysis and Machine Intelligence. 2019. V. 41. № 8. P. 1947–1962.
5. Shapiro L., Stockman G. Computer vision. New Jersey: Prentice-Hall, 2001. 580 р.
6. Задача трансляции изображений. [Электронный ресурс] / neerc.ifmo.ru: информационный ресурс. URL: http://neerc.ifmo.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D1%82%D1%80%D0%B0%D0%BD%D1%81%D0%BB%D1%8F%D1%86%D0%B8%D0%B8_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9 (дата обращения: 25.08.2021).
7. Guo D., Pei Y., Zheng K., Yu H., Lu Y., Wang S. Degraded image semantic segmentation with dense-gram networks // IEEE Trans. Image Proc. 2019. V. 29. P. 782–795.
8. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // Proc. IEEE Conf. Computer Vision and Pattern Recognition. June 7–12, 2015. Boston, MA, USA. P. 3431–3440.
9. Badrinarayanan V., Kendall A., Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation // IEEE Trans. Pattern Analysis and Machine Intelligence. 2017. V. 39. № 12. P. 2481–2495.
10. Yachnaya V.O., Mikhalkova M.A., Yablokov E.N., Lutsiv V.R. Noise model effect upon the GAN-synthesized images // Proc. IEEE Wave Electronics and Its Application in Information and Telecommunication Systems (WECONF-2020). 2020. Saint-Petersburg, Russia. P. 1–6.
11. Know your data. [Электронный ресурс] / google.com: информационный ресурс. URL:https://knowyourdata.withgoogle.com/ (дата обращения: 28.08.2021).
12. Mirza M., Osindero S. Conditional generative adversarial nets. 2014. [Электронный ресурс] /arxiv.org:информационный ресурс. URL: https://arxiv.org/pdf/1411.1784.pdf (дата обращения: 25.08.2021).
13. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation // Proc. 18th Internat. Conf. Medical Image Computing and Computer-Assisted Intervention (MICCAI-2015). October 5–9, 2015. Munich, Germany. P. 234–241.
14. Isola P., Zhu J.-Y., Zhou T., Efros A. Image-to-image translation with conditional adversarial networks // Proc. 2017 IEEE Conf. Computer Vision and Pattern Recognition (CVPR). 21–26 July, 2017. Honolulu, HI, USA. P. 5967–5976.
15. Kingma D.P., Ba J. Adam: A method for stochastic optimization // Proc. 3rd Internat. Conf. Learning Representations. San Diego. May 7–9, 2015. P. 1–15.
16. Brownlee J. How to implement Pix2Pix GAN models from scratch with Keras. [Электронный ресурс] / machinelearningmastery.com: информационный ресурс. URL: https://machinelearningmastery.com/how-to-implement-pix2pix-gan-models-from-scratch-with-keras/ (дата обращения: 26.08.2021).
17. Cordts M., Omran M., Ramos S., Rehfeld T. The cityscapes dataset for semantic urban scene understanding // Proc. 2016 IEEE Conf. Computer Vision and Pattern Recognition (CVPR-2016). Las Vegas, NV, USA. June 27–30, 2016. P. 3213–3223.
18. Гайер А.В., Шешкус А.В., Чернышова Ю.С. Аугментация обучающей выборки «на лету» для обучения нейронных сетей // Тр. ин-та системного анализа РАН. 2018. Т. 68. № S1. С. 150–157.
19. Borji A. Pros and cons of GAN evaluation measures // Computer Vision and Image Understanding. 2019. V. 179 (February 2019). P. 41–65.
20. Zhou Wang, Bovik A.C. A universal image quality index // IEEE Signal Proc. Lett. 2002. V. 9. № 3. P. 81–84.
21. Jagalingam P., Hegde A. A review of quality metrics for fused image // Proc. Internat. Conf. Water Resources, Coastal and Ocean Engineering (ICWRCOE 2015). Aquatic Procedia. 2015. V.4. P. 133–142.
22. Sheikh H.R., Bovik A.C. Image information and visual quality // IEEE Trans. Image Proc. V. 15. № 2. P. 430–444. Feb. 2006, doi: 10.1109/TIP.2005.859378.