ITMO
en/ en

ISSN: 1023-5086

en/

ISSN: 1023-5086

Научно-технический

Оптический журнал

Полнотекстовый перевод журнала на английский язык издаётся Optica Publishing Group под названием “Journal of Optical Technology“

Подача статьи Подать статью
Больше информации Назад

DOI: 10.17586/1023-5086-2019-86-09-49-59

УДК: 004.93

Сегментация сцен с пешеходами в реальном времени на основе метода DeepLabv3+

Ссылка для цитирования:

W. Yang, J. L. Zhang, Z. Y. Xu, and K. Hu A real-time DeepLabv3+ for pedestrian segmentation (Сегментация сцен с пешеходами в реальном времени на основе метода DeepLabv3+) [на англ. яз.] // Оптический журнал. 2019. Т. 86. № 9. С. 49–59. http://doi.org/10.17586/1023-5086-2019-86-09-49-59

 

W. Yang, J. L. Zhang, Z. Y. Xu, and K. Hu A real-time DeepLabv3+ for pedestrian segmentation (Сегментация сцен с пешеходами в реальном времени на основе метода DeepLabv3+) [in English] // Opticheskii Zhurnal. 2019. V. 86. № 9. P. 49–59. http://doi.org/10.17586/1023-5086-2019-86-09-49-59

Ссылка на англоязычную версию:

W. Yang, J. L. Zhang, Z. Y. Xu, and K. Hu, "Real-time DeepLabv3+ for pedestrian segmentation," Journal of Optical Technology. 86(9), 570-578 (2019). https://doi.org/10.1364/JOT.86.000570

Аннотация:

Сегментация сцен с пешеходами важна во многих применениях систем компьютерного видения, например, видеонаблюдения или интерактивных игр. Подобные применения требуют весьма высокой скорости сегментации, не в ущерб, однако, существенной потери точности. Предложен способ сегментации таких сцен в реальном времени, основанный на структуре семантического метода сегментации DeepLabv3+. В качестве основы этого метода разработана мелкая нейронная сеть, а также предложен блок свертки для объединения многоуровневых и политипичных характеристик. Впервые проведено обучение программы DeepLabv3+ на библиотеке Cityscapes для сегментирования объектов, принадлежащих к 19 классам, и проведена ее тонкая настройка для классов «субъект» и «велосипедист» библиотек Cityscapes и COCO в качестве объектов переднего плана и прочих классов как фоновых объектов при моделировании сегментации сцен с пешеходами. Экспериментально показано, что для такой сегментации на валидационном множестве Cityscapes предложенная программа DeepLabv3+ позволяет получить среднюю точность меры Жаккара IoU в 89,0%. Предложенный метод позволяет достичь скорости обработки 33 кадров в секунду изображений с расширением 720×1280 на видеокарте GTX 1080Ti GPU, что подтверждает его применимость для обработки быстроменяющихся сцен.

Ключевые слова:

сегментация сцен с пешеходами, семантическая сегментация, свертка

Коды OCIS: 100.4996, 100.2000

Список источников:

1. Zhao T., Nevatia R. Bayesian human segmentation in crowded situations // 2003 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. Madison, 2003. P. 459.
2. Hernández A., Reyes M., Escalera S., Radeva P. Spatio-temporal grabcut human segmentation for face and pose recovery // 2010 IEEE Computer Soc. Conf. Computer Vision and Pattern Recognition. San Francisco, 2010. P. 33–40.
3. Hernández-Vela A., Reyes M., Ponce V., Escalera S. GrabCut-based human segmentation in video sequences // Sensors. V. 12. № 11. P. 15376–15393.
4. Rother C., Kolmogorov V., Blake A. Grabcut: Interactive foreground extraction using iterated graph cuts // ACM Trans. Graph. V. 23. № 3. P. 309–314.
5. Long J., Shelhamer E., Darrel T. Fully convolutional networks for semantic segmentation // 2015 IEEE Conf. Computer Vision and Pattern Recognition. Boston, 2015. P. 3431–3440.
6. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional networks for biomedical image segmentation // Internat. Conf. Medical Image Computing and Computer-Assisted Intervention. Munich, 2015. P. 234–241.
7. Paszke A., Chaurasia A., Kim S., Culurciello E. E Net: A deep neural network architecture for real-time semantic segmentation. arXiv:1606.02147 [cs.CV].
8. Romera E., Alvarez J.M., Bergasa L.M., Arroyo R. ERFNet: Efficient residual factorized ConvNet for real-time semantic segmentation // IEEE Trans. Intell. Transp. Syst. V. 19. № 1. P. 263–272.
9. Badrinarayanan V., Kendall A., Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation // IEEE Trans. Pattern Anal. Mach. Intell. V. 39. № 12. P. 2481–2495.

10. Zhao H., Shi J., Qi X., Wang X., Jia J. Pyramid scene parsing network // 2017 IEEE Conf. Computer Vision and Pattern Recognition (CVPR). Hawaii, 2017. P. 2881–2890.
11. Chen L.C., Papandreou G., Kokkinos I., Murphy K., Yuille A.L. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs // IEEE Trans. Pattern Anal. Mach. Intell. V. 40. № 4. P. 834–848.
12. Chen L.C., Papandreou G., Schroff F., Adam H. Rethinking atrous convolution for semantic image segmentation. arXiv:1706.05587 [cs.CV].
13. Chen L.C., Zhu Y., Papandreou G., Schroff F., Adam H. Encoder-decoder with atrous separable convolution for semantic image segmentation // European Conf. Computer Vision (ECCV). Munich, 2018. P. 833–851.
14. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // ICLR. San Diego, 2015.
15. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // 2016 IEEE Conf. Computer Vision and Pattern Recognition. Las Vegas, 2016. P. 770–778.
16. Song C., Huang Y., Wang Z., Wang L. 1000 fps human segmentation with deep convolutional neural networks // 2015 3rd IAPR Asian Conf. Pattern Recognition (ACPR). Kuala Lumpur, 2015. P. 474–478 .
17. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M., Berg A.C., Li F. Imagenet large scale visual recognition challenge // J. Comput. Vis. V. 115. № 3. P. 211–252.
18. Cordts M., Omran M., Ramos S., Scharwächter T., Enzweiler M., Benenson R., Franke U., Roth S., Schiele B. The cityscapes dataset for semantic urban scene understanding // 2016 IEEE Conf. Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016. P. 3213–3223.
19. Lin T.-Y., Maire M., Belongie S., Bourdev L., Girshick R., Hays J., Perona P., Ramanan D., Zitnick C.L., Dollár P. Microsoft COCO: Common objects in context. arXiv:1405.0312 [cs.CV].
20. Chollet F. Xception: Deep learning with depthwise separable convolutions // 2017 IEEE Conf. Computer Vision and Pattern Recognition (CVPR). Hawaii, 2017. P. 1800–1807.
21. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // 2015 JMLR Internat. Conf. on Machine Learning (ICML). Lille, 2015. P. 448–456.
22. Lin T., Goyal P., Girshick R., He K., Dollár P. Focal loss for dense object detection // Int. Conf. on Computer Vision (ICCV). Venice, 2017. P. 2999–3007.
23. Paszke A., Gross S., Chintala S., Chanan G., Yang E., DeVito Z., Lin Z., Desmaison A., Antiga L., Lerer A. Automatic differentiation in PyTorch // NIPS 2017 Autodiff Workshop: The Future of Gradient-based Machine Learning Software and Techniques. Long Beach, 2017.