Unstructured Multicamera Arrays

Комбинирование голографических технологий, теоретически разработанных в НИКФИ в 1980-х годах, с современными устройствами цифровой съёмки, технологиями виртуальной реальности и компьютерной анимации позволяют предложить новые подходы к процессу киносъёмки.

В традиционном кинематографе производят съёмку подготовленной сцены с заранее просчитанных точек или траекторий движения камеры. Для возможности пост-обработки и наложения визуальных эффектов применяют трёхмерную запись неподвижной сцены с помощью ЛИДАРа и фотографирование текстур с последующим переводом в 3D-анимацию.

Целью НИР является разработка нового способа киносъёмки. Предлагается производить съёмку действия во всём объёме сцены, с помощью распределенных по сцене малогабаритных видеокамер. Затем в режиме пост-производства режиссёр синтезирует лучшие ракурсы и траектории движения по площадке из записанных распределенными камерами планов. Это позволит сократить время натурной съёмки на площадке, а также увеличит возможности режиссёра при документальной съёмке уникальных событий, в которых нет возможности второго дубля. В рамках НИР производится разработка алгоритмов и создание опытного образца программно-аппаратного комплекса для распределенной мультикамерной съёмки и последующего синтеза интегрального светового поля сцены с возможностью последующей демонстрации планов с произвольного ракурса.
Проведение НИР по данной теме позволит разработать технологические решения, способные сократить время натурной съёмки на площадке, а также увеличить возможности режиссёра при документальной съёмке уникальных крупномасштабных событий, в которых нет возможности второго дубля (церемонии, парады, исторические события, массовые культурные мероприятия).

В перспективе эта технология позволит реализовать интерактивный просмотр кино за счёт возможности перемещения зрителя в различные точки сцены прямо при демонстрации с помощью очков виртуальной реальности или экранов объемного отображения. Конечной целью разработки должна быть реализация удаленного присутствия зрителя в репортажной сцена в режиме реального времени (онлайн).

Исследование и разработка оригинального решения по синтезу новых ракурсов на основе оценки поля векторов нормалей к поверхностям объектов в сцене позволяет отказаться от использования стереокамер в мультикамерной съемке, что практически вдвое сокращает количество камер, объемы передачи и хранения данных, время обработки, упрощает вопросы синхронизации, совмещения кадров, выравнивания экспозиции и прочее.

Разрабатываемая технология также может применяться для производства дополнительных материалов к художественным фильмам, для съёмки учебных и документальных фильмов, виртуальных туров и прочих мультимедийных материалов кинематографического уровня качества, причем формирование требуемых ракурсов при показе производится в реальном времени на портативных устройствах показа VR (без применения мощных компьютеров с графическими ускорителями), что делает возможным внедрение системы в общественно-доступных учреждениях культуры (музеях, библиотеках).

Проведение НИР по данной теме позволит решить многие задачи по созданию у зрителей эффекта присутствия и соучастия их в действии, за счет реализации эффектов оглядывания и перемещения внутри сцены. Это приведет к расширению творческих возможностей режиссера и оператора и, возможно, к созданию новых видов зрелищ, связанных с имитацией присутствия зрителя в удаленных местах.

Результаты

В работе предложена целостная технология многокамерной съемки и последующей демонстрации движущегося объемного изображения. Отличительной особенностью предложенной системы является отказ от итерационных алгоритмов для реконструкции 3D-сцены, что позволит в будущем создать систему трансляции объемного движущегося изображения в реальном времени (в прямом эфире) за счет того, что предложенный алгоритм извлечения информации о пространственной структуре сцены выполняется за предсказуемое число машинных тактов и эффективно ускоряется за счет параллельных вычислений на аппаратных графических платах. Использованный в работе способ синтеза новых ракурсов основан на неполной информации о пространственной структуре сцены и работает в реальном масштабе времени. Это позволит применять для демонстрации объемных фильмов недорогие шлемы виртуальной реальности, основанные на процессорах для мобильных устройств, а также просматривать объемные фильмы на бытовых устройствах отображения. В то же время, предложены способы применения данной технологии в профессиональном кинопроизводстве на этапе монтажа/пост-произодства.

Предложенная в данной НИР технология в полной мере является иммерсивной. В то время, как доминирующая на рынке виртуальной реальности система съемки в формате 360 градусов позволяет отрабатывать лишь угловые вращения ракурса просмотра, предлагаемая здесь система мультикамерной съемки обеспечивает формирование новых ракурсов как при угловых, так и продольных​ ​перемещениях​ ​точки​ ​зрения.​

Приблизительная 3D-модель выпуклой оболочки сцены, снятой с одного ракурса. Единственный кадр сцены и карта глубины, полученная нейросетевой моделью, показаны в заголовке статьи.

В результате работы создан экспериментальный образец системы многокамерной съемки, включающий цифровые видеокамеры, систему синхронизации и центральное устройство для захвата и сохранения изображения. Технические решения, принятые при разработке экспериментального образца, позволяют масштабировать его на системы, состоящие из сотен видеокамер путем линейного наращивания из стандартных недорогих комплектующих. Предложена методика настройки видеокамер и комплекса в целом.

Оригинальность предложенного подхода к построению многокамерной системы съемки заключается в том, что одновременно с захватом изображения происходит сохранение информации о ракурсе съемки в глобальной системе координат.

Дальнейшее развитие системы для многокамерной съемки может идти по пути создания специализированной аппаратной платформы для захвата кадров на базе программируемой логики, совершенствования средств компрессии захватываемых изображений. Необходимо также доработать подсистему определения взаимного положения камер в глобальной системе координат для того, чтобы исключить из процесса подготовки необходимость регистрации шаблонов типа “шахматная доска”.

В процессе работы экспериментально исследованы два метода 3D-реконструкции: метод кодированной диафрагмы и метод, основанный на глубинном машинном обучении. В результате анализа достоинств и недостатков исследованных методов, предложен новый метод извлечения неполной информации о пространственной структуре сцены, пригодный для целей синтеза новых ракурсов в реальном времени – метод аппроксимации​ ​нормалей​ ​локально​ ​выпуклой​ ​оболочки​ ​с​ ​помощью глубокого​ ​обучения. В качестве математической модели в предложенном методе применена многослойная искусственная нейронная сеть. Насколько известно авторам, этот метод является оригинальным на момент составления данного отчета.
Достоинством данного метода является простота получения исходных данных в объемах, необходимых для глубокого машинного обучения, и детерминированный характер вычислений на этапе обработки отснятых материалов, что позволяет использовать этот метод в реальном масштабе времени. Несмотря на то, что информация об объемной структуре сцены, извлекаемая из плоских изображений этим методом, является неполной, ее достаточно для выбора наилучших фрагментов изображений с действительных камер для синтеза нового ракурса.

В дальнейшем авторы планируют исследовать возможность улучшения точности аппроксимации векторов нормалей за счет дообучения нейронной сети стереоскопическими фотоизображениями, снятыми непосредственно на съемочной площадке в период подготовки к многокамерной съемке. Это позволит ввести в математическую модель аппроксиматора априорную информацию о дополнительных признаках объема, текстурах и масштабе сцены. Отметим, что использованный в работе подход к обучению аппроксиматора требует лишь стереоскопических фотографий, знание эталонной 3D-модели сцены или съемка карт глубины с помощью ЛИДАРа не требуются.

В предложенной технологии многокамерной съемки и демонстрации объемного движущегося изображения использованы идеи по синтезу новых ракурсов, известные в литературе как “лумиграфия”. В ходе НИР был доработан известный в лумиграфии алгоритм расчета поля весовых коэффициентов для смешивания изображений с действительных камер для того, чтобы использовать неполную информацию о структуре объемной сцены в форме поля векторов нормалей. Насколько известно авторам на момент составления данного отчета, нами получен оригинальный алгоритм, ранее не опубликованный в литературе.

Предложенный в НИР алгоритм синтеза новых ракурсов удовлетворяет требованиям ТЗ по устойчивости к различиям в разрешающей способности сигнала со съемочных камер, расположенных на различных расстояниях и под различными углами к восстанавливаемому элементу изображения; устойчивости к бесструктурному способу расположения и ориентации​ ​съемочных​ ​камер; пространственной непрерывности цветопередачи при реконструкции​ ​близкорасположенных​ ​элементов​ ​изображения.

В будущем авторы планируют усовершенствовать данный алгоритм в части более точного определения границ разрыва векторного поля нормалей для более точной триангуляции сцены. Кроме того, необходимо усовершенствовать способы расчета весовых коэффициентов для смешивания изображений с различных камер.

В ходе данной НИР экспериментально исследован способ улучшения качества синтезированного изображения с помощью многослойной искусственной нейронной сети на этапе пост-обработки. Полученная реализация алгоритма улучшения изображения показала свою эффективность и высокое качество.

Впоследствии авторы планируют усовершенствовать подсистему пост-обработки за счет дообучения нейронной сети с помощью фотографий сюжетно важных частей сцены, текстур, костюмов персонажей на этапе подготовки к многокамерной съемке. Мы прогнозируем, что такая нетрудоемкая подготовка позволит ввести в математическую модель априорные данные о специфике снимаемой сцены и повысить субъективную оценку качества синтезированного изображения.

В работе предложены подходы к методам формирования произвольных ракурсов в формате плоского кадра, стереоскопического кадра, кадра для безочковой объемной демонстрации и формата виртуальной реальности. Рассмотрены два основных сценария применения технологии: этап пост-производства в традиционном кинематографе и интерактивный просмотр объемного фильма индивидуальными зрителями.

В варианте применения технологии на этапе пост-производства возможно выполнение таких операций как корректировка положения и ориентации камеры, точки фокусировки, глубины резкости и трансфокации. Возможна также цветокоррекция, коррекция освещения и подкладка фона на основе карты глубины кадра.

В варианте применения технологии для интерактивного просмотра объемного фильма появляются возможности:
а) реализации эффекта оглядывания, когда за счет малых линейных перемещений головы зритель получает значительно большую иллюзию объема,​ ​чем​ ​при​ ​традиционной​ ​стереоскопии;
б) перемещения зрителя в объеме сцены при просмотре, причем перемещение может задаваться путем захвата реального передвижения зрителя по площадке просмотра, так и задаваться зрителем в интерактивном​ ​режиме​ ​с​ ​помощью​ ​манипуляторов;
в) снижениея эффекта укачивания за счет того, что мозг зрителя при микроперемещениях головы получает адекватный отклик от изображения в сменяющемся ракурсе, в отличие от традиционной стероскопии и доминирующих на рынке систем виртуальной реальности​ ​с​ ​360-градусной​ ​съемкой.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Н.А. Валюс. Стерео: фотография, кино, телевидение. – М.:Искусство, 1986, с. 218.
2. Комар В.Г. О принципиальных схемах осуществления голографического кинематографа. Труды НИКФИ, 1975, вып. 78, с. 131.
3. Lumsdaine, A., Georgiev, T., The Focused Plenoptic Camera, ICCP, April 2009.
4. L. Ladick`y, J. Shi, M. Pollefeys. Pulling things out of perspective. In CVPR, 2014.
5. Chris Buehler, Michael Bosse, Leonard McMillan, Steven Gortler, Michael Cohen. Unstructured Lumigraph Rendering. Proceedings of the 28th annual conference on Computer graphics and interactive techniques SIGGRAPH 2001, стр. 425-432.
6. Vladimir Paramonov, Ivan Panchenko, Victor Bucha, Andrey Drogolyub, Sergey Zagoruyko. Depth Camera Based on Color-Coded Aperture. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2016.
7. Anat Levin, Rob Fergus, Frédo Durand, William T. Freeman. Image and Depth from a Conventional Camera with a Coded Aperture. Proceedings of the 34th annual conference on Computer graphics and interactive techniques SIGGRAPH 2007.
8. Ashutosh Saxena, Sung H. Chung, Andrew Y. Ng. 3-D Depth Reconstruction from a Single Still Image. IJCV, 2007.
9. D. Eigen, C. Puhrsch, R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In NIPS, 2014.
10. F. Liu, C. Shen, G. Lin, I. Reid. Learning depth from single monocular images using deep convolutional neural fields. PAMI, 2015.
11. Tinghui Zhou, Matthew Brown, Noah Snavely, David Lowe. Unsupervised Learning of Depth and Ego-Motion from Video. CVPR, 2017.
12. Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, Adam Bry. End-to-End Learning of Geometry and Context for Deep Stereo Regression. Proceedings of the International Conference on Computer Vision (ICCV), 2017.
13. Canon announces development of the Free Viewpoint Video System virtual camera system that creates an immersive viewing experience. Интернес-ссылка: http://global.canon/en/news/2017/20170921.html
14. О. Березин. Российская киноиндустрия 4.0 – цифровые кинофабрики, или прогнозирование за гранью понимания. Мир техники кино, №3, 2017, с. 6.
15. Zhang. A Flexible New Technique for Camera Calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330-1334, 2000.
16. N.Mayer, E.Ilg, P.Husser, P.Fischer, D.Cremers, A.Dosovitskiy, T.Brox. A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
17. D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.
18. Cl ́ement Godard, Oisin Mac Aodha, Gabriel J. Brostow. Unsupervised Monocular Depth Estimation with Left-Right Consistency. arXiv:1609.03677.
19. Дуда Р., Харт П. Распознавание образов и анализ сцен. Пер. с англ. Вайнштейна Г.Г. и Васильковского А.М. — М.: Мир, 1976.
20. Скворцов А. В. Триангуляция Делоне и её применение. — Томск: Изд-во Томского университета, 2002.
21. Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee. Accurate Image Super-Resolution Using Very Deep Convolutional Networks. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
22. Елхов В.А., Кондратьев Н.В., Овечкис Ю.Н., Паутова Л.В. Устройство для демонстрации растрового стереоскопического изображения с высоким разрешением. 2010 Патент на изобретение №2391689.
23. Елхов В.А., Кондратьев Н.В., Овечкис Ю.Н., Паутова Л.В. Безочковая система показа объемных многоракурсных киноизображений. Мир техники кино – 2009 – №11 – с. 2-7.
24. Елхов В.А., Кондратьев Н.В., Овечкис Ю.Н., Паутова Л.В. Цифровой синтез многоракурсных стереоскопических изображений для безочковой растровой демонстрации. Мир техники кино – 2012 – №2 – с. 21-25.