Image Quality Assessment Algorithms

Задача оценки технического качества фильмовых материалов всегда представляла значительные трудности для работников технического контроля всех уровней: на киностудиях и телевизионных центрах при выпуске продукции, в фильмофондах и в архивах кинодокументов при приемке материалов на хранение и при выдаче документов на получение прокатного удостоверения. Основные сложности заключались в отделении производственного брака технологических процессов съемки, печати или химико-фотографической обработки от особенностей режиссерского и операторского решения той или иной сцены фильма, а также от неизбежных дефектов, вносимых кинопленкой (фотографической эмульсией). За многие годы в кино и телевидении были выработаны правила, определяющие порядок сдачи и приемки фильмов.

В течение последнего десятилетия и в кино, и в телевидении произошел практически полный переход к цифровым технологиям. Кроме этого к ним добавились мультимедийные средства передачи и демонстрации контента. Каждый шаг технологического развития (появление новых средств съемки, передачи и отображения информации, новых кодеков и форматов) приводил к преодолению недостатков техники и технологии предыдущего поколения, но при этом появлялись новые артефакты, обычно более сложные и трудно диагностируемые.

Дополнительная сложность диагностики цифровых дефектов заключается в том, что технический прогресс идет быстрее смены оборудования и технологий на предприятиях кинематографа и телевидения. В результате в производственном процессе применяются почти все кодеки и форматы, разработанные с начала цифровой эры, со всеми присущими им особенностями и недостатками.

Если добавить к этому, что специалисты, работавшие с кинопленкой и аналоговым видео, не имеют навыков работы с цифровыми материалами, а новых инженеров кино и телевидения нигде не готовят, становится понятна проблема, стоящая перед работниками технического контроля.
Особенно остро проблема входного контроля стоит в фильмофондах и учреждениях Росархива, принимающих на хранение обязательные экземпляры киновидеофильмов. Она решается в настоящее время путем выборочного просмотра материалов техническими экспертами. В результате срок приемки материалов может достигать нескольких месяцев из-за высокой нагрузки на персонал.

При предоставлении обязательных экземпляров в цифровой форме возникает дополнительная задача контроля правильности формата записи и используемых кодеков, контроля воспроизводимости цифровой записи на реальных устройствах отображения (динамические диапазоны, пропускная способность видеопотока) и контроля специфических видов цифровых помех и искажений (срыв кодирования, блочность изображения и т.п.) Подобная задача возникает и при выдаче киновидеоматериалов из архивов или киностудий сторонним заказчикам на коммерческой основе: как убедиться, что лицензируемый контент надлежащего качества?
Для автоматического контроля качества видеоматериалов существуют дорогостоящие программные продукты иностранного производства, например, VidCheck. Учитывая количество территориальных подразделений Росархива, фильмофондов и потенциальный рынок частных потребителей (телестудии, продюсерские центры), импортозамещение данного класса ПО представляется перспективным.

Для оценки визуального качества цифровых видеоматериалов составлены атласы типичных дефектов. В обширном справочном издании [1] приведен подробный каталог аналоговых артефактов. В работе [2] представлена база данных типичных цифровых артефактов аудиовизуального контента (АВК). Несмотря на то, что эта база данных предназначена, в первую очередь, для выработки количественных метрик отличия искаженных изображений от эталонного (референсного) изображения, авторы ввели важный показатель средней оценки пользовательского восприятия (mean opinion score). Этот показатель претендует на роль унифицированной метрики качества изображения, основанной на знаниях о зрительном восприятии человека.

Однако при оценке технического качества АВК при архивном хранении отсутствует доступ к референсному материалу. Поэтому решаемая в данной НИР задача относится к категории слепой оценки качества изображений (blind image quality assessment).

Существует подход слепой оценки качества изображений, при котором пытаются предсказать оценку пользовательского восприятия с помощью модели, построенной на основе субъективных оценок, данных пользователями тренировочной выборке искаженных изображений. Известны алгоритмы такого рода DIIVINE [3], CBIQ [5], LBIQ [6], BLIINDS [7], BRISQUE [8]. Недостатком таких моделей являются трудности в сборе достаточного объема статистики и априорная ориентация на известные и моделируемые типы искажений.

Известен подход [9] слепой оценки качества изображений на основе анализа отклонений от статистических закономерностей, свойственных естественным изображениям. Уровень качества выражают в форме расстояния между многомерным распределением Гаусса (МРГ), аппроксимирующим статистику пространственных признаков изображения, с МРГ, аппроксимирующим статистику признаков большого корпуса естественных изображений.

Методы слепой оценки качества изображений основаны на извлечении тех или иных статистических признаков в пространственной или частотной области. В последнее время наилучшие результаты в области извлечения пространственных признаков показывают многослойные нейронные сети. Например, в работе [9] предложен метод слепой оценки нечеткости изображения с помощью ограниченной машины Больцмана, моделируемой многослойным персептроном.

В данной НИР широко применяется другой класс многослойных сетевых структур – сверточные нейронные сети [10], [11]. В то же время, для ряда задач в данной НИР используется исследование статистических закономерностей локальных признаков изображения (градиентов яркости) и традиционные методы анализа сигналов яркости и цветности. В нашей работе экспериментально проверены актуальные вычислительные модели, предложенные в публикациях 2014-2016 гг. Часть из них показала хороший результат и может быть рекомендована к внедрению.

Результаты

1. Предложены оригинальные методы и алгоритмы анализа изображений, позволяющие автоматизировать входной контроль киновидеофильмов:

1.1. Разработан метод адаптивного параметрического анализа, основанный на применении искусственных нейронных сетей. Метод обладает широкими возможностями по обнаружению и идентификации, как существующих артефактов, так и артефактов, которые могут появиться в будущем при выходе новых алгоритмов кодирования и сжатия изображений.
Метод опробован на некоторых типичных дефектах, вносимых в изображение широко применяемыми в настоящее время кодеками MPEG, JPEG, JPEG2000, и продемонстрировал перспективность его применения и развития для решения широкого класса задач анализа и обработки изображений. Точность классификации по видам цифровых артефактов на тестовой выборке составила 92%. Точность классификации по признаку неудовлетворительного качества составила 97% на тестовой выборке.
Особого внимания заслуживает предложенный в данной работе способ контроля соответствия уровня визуального качества изображения среднему битрейту видеопотока (п. 2.5 настоящего отчета).

1.2. Разработаны алгоритмы идентификации изображений ГЦП и СЧП, а также наличия пустых (черных) кадров в видеопотоке.

1.3. Разработаны алгоритмы определения уровня черного, уровня белого, нарушения допустимых значений цветности, нарушения допустимых значений цветовой гаммы для видеоизображений стандартного разрешения (соответствующих стандарту ВТ.601) и высокого разрешения (соответствующих стандарту ВТ.709).

1.4. Разработан параметрический алгоритм определения резкости изображения. Параметры могут быть использованы для количественной оценки резкости. Предложенный алгоритм отличается высокой производительностью за счет использования 8-битной целочисленной арифметики.

1.5. Разработаны алгоритмы обнаружения выбросов и полос брака в изображении.

1.6. Разработан алгоритм обнаружения колебания яркости и/или цветности внутри плана.

1.7. Все разработанные алгоритмы реализованы в программном обеспечении, пригодном к опытному внедрению в архивных учреждениях. Программное обеспечение полностью реализует функциональные требования ТЗ, а именно:

1.7.1. Для каждого параметра, показателя и дефекта контролируемой видеофонограммы предусмотрен диапазон допустимых значений (п.4.5.2 ТЗ). Настройка перечня тестируемых показателей и пределов срабатывания производится путем редактирования значений в текстовом файле конфигурации.

1.7.2. ПО генерирует в качестве выходных данных файл отчета о фактических параметрах, измеренных показателях и выявленных признаках наличия дефектов в контролируемой видеофонограмме (п.4.5.3 ТЗ). Файл отчета генерируется в формате PDF для вывода на печать и/или в формате HTML, удобном для интеграции в корпоративные ИТ-системы. Отчет содержит помимо текстовых данных изображения дефектных кадров.

2. Разработанные методы и алгоритмы опробованы на тестовых образцах статических и динамических изображений и продемонстрировали высокую эффективность обнаружения соответствующих параметров и дефектов изображения. Так, в цитируемой работе [9] приводится таблица 1, содержащая сравнение лучших на момент написания статьи (2015) показателей точности слепой оценки качества. Приведенные там значения точности, достигнутые разными коллективами, для нейросетевых алгоритмов находятся в диапазоне от 89,7% до 95,2%. Достигнутые в данной работе показатели 92% и 97% сопоставимы с лучшими мировыми, и далеко превосходят показатели алгоритмов, основанных на традиционных методах (76,9% – 81,5%).

Список использованных источников

1. A. K. Moorthy and A. C. Bovik, “Blind image quality assessment: From natural scene statistics to perceptual quality,” IEEE Trans. Image Process., vol. 20, no. 12, pp. 3350–3364, 2011.
2. Nikolay Ponomarenko, Vladimir Lukin, Alexander Zelensky, Karen Egiazarian, Jaakko Astola, Marco Carli, and Federica Battisti. TID2008 – A Database for Evaluation of Full-Reference Visual Quality Assessment Metrics. http://www.ponomarenko.info/papers/mre2009tid.pdf
3. A. K. Moorthy and A. C. Bovik, “Blind image quality assessment: From natural scene statistics to perceptual quality,” IEEE Trans. Image Process., vol. 20, no. 12, pp. 3350–3364, 2011.
4. P. Ye and D. Doermann, “No-reference image quality assessment using visual codebook,” in IEEE Int. Conf. Image Process., 2011.
5. H. Tang, N. Joshi, and A. Kapoor, “Learning a blind measure of perceptual image quality,” in Int. Conf. Comput. Vision Pattern Recog., 2011.
6. M. Saad, A. C. Bovik, and C. Charrier, “Blind image quality assessment: A natural scene statistics approach in the DCT domain,” IEEE Trans. Image Process., vol. 21, no. 8, pp. 3339–3352, 2012.
7. A. Mittal, A. K. Moorthy, and A. C. Bovik, “No-reference image quality assessment in the spatial domain,” IEEE Trans. Image Process., 2012.
8. Anish Mittal, Rajiv Soundararajan, Alan C. Bovik. Making a ‘Completely Blind’ Image Quality Analyzer. IEEE Signal Processing Letters, Volume: 20, Issue: 3, 2013.
9. Ruomei Yan, Ling Shao. Blind Image Blur Estimation via Deep Learning. IEEE Transactions on Image Processing, Volume: 25, Issue: 4, 2016.
10. Sergey Zagoruyko, Nikos Komodakis. Wide Residual Networks. British Machine Vision Conference, 2016, 87.1-87.12. 10.5244/C.30.87.
11. K. Simonyan, A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556
12. ГОСТ 18471-83. Тракт передачи изображения вещательного телевидения. Звенья тракта и измерительные сигналы.
13. RECOMMENDATION ITU-R BT.471-1. Nomenclature and description of colour bar signals
14. РЕКОМЕНДАЦИЯ МСЭ-R BT.601-7. Студийные параметры кодирования цифрового телевидения.
15. РЕКОМЕНДАЦИЯ МСЭ-R BT.709-6. Значения параметров стандартов ТВЧ для производства программ и международного обмена программами.
16. РЕКОМЕНДАЦИЯ МСЭ-R BT.2020. Значения параметров для систем ТСВЧ для производства программ и международного обмена ими.
17. ПРИКАЗ Минкомсвязи России «Об утверждении Рекомендаций в области нормирования звуковых сигналов в телерадиовещании» от 21.05.2015 №171
18. РЕКОМЕНДАЦИЯ МСЭ-R BS.1770-4 (10/2015) «Алгоритмы измерения громкости звуковых программ и истинного пикового уровня звукового сигнала»
19. EBU R 128-2014 Loudness normalisation and permitted maximum level of audio signals
20. Tech 3341-2016 Loudness Metering: ‘EBU Mode’ metering to supplement Loudness normalization
21. Tech 3342-2016 Loudness Range: A measure to supplement Loudness normalization in accordance with EBU R 128
22. Tech 334-2016 Guidelines for Production of Programmes in accordance with R 128
23. TAMPERE IMAGE DATABASE 2013 TID2013, version 1.0. http://www.ponomarenko.info/tid2013.htm
24. K. Dabov, A. Foi, V. Katkovnik, and K.Egiazarian, “Image denoising by sparse 3-D transform-domain collaborative filtering”, IEEE Transactions On Image Processing, vol. 16, issue 8, pp. 2080-2095, 2007.