Основным направлением деятельности киноархивов является предоставление фрагментов кинохроники, документальных и художественных фильмов для производства новых документальных и учебных фильмов, телепередач, новых игровых фильмов, рекламных роликов. Поиск фрагментов в настоящее время представляет собой трудоёмкую задачу, требующую привлечения высококвалифицированных редакторов.
Аннотация киноархива текстовыми описаниями позволяет производить поиск фрагментов в архиве по ключевым словам, персоналиям и локациям съёмки. Функции поиска позволяют значительно повысить доступность архивных материалов для использования в новом производстве, а следовательно увеличить доходы от лицензирования кинофрагментов.
По опыту оцифровки архивов ЦСДФ, ЦНФ, Свердловской киностудии и др., трудозатраты редакторов текстовых описаний в 10 раз превышают трудозатраты инженерно-технического персонала. Поэтому автоматизация составления текстовых описаний является крайне актуальной задачей.
В 2016 году НИКФИ провел масштабную работу, основанную на анализе больших данных. Были проанализированы тексты монтажных листов 33000 фрагментов отечественных телесериалов, и получен удовлетворительный результат по генерации текстовых описаний отдельных сцен. Возможно внедрение этой технологии в поисковые системы Интернета и архивы телекомпаний, киноархивы и личные видеоархивы.
Примеры работы алгоритма
Тренировка алгоритма текстовых аннотаций проводилась на основании монтажных листов отечественных телесериалов. Пример тренировочных данных:
Для извлечения графических признаков из последовательности кадров использована сверточная нейронная сеть, обученная задаче распознавания изображений IMAGENET. Для порождения текста на основе графических признаков построена линейная модель с помощью свободного программного обеспечения Vowpal Wabbit © Microsoft Corp 2012-2014, Yahoo! Inc. 2007-2012.
По результатам тестирования, показатель точности машинного перевода BLEU-1 составил 0.4964. Порождаемые тексты на русском языке пригодны для индексации с целью организации информационного поиска по архиву кинодокументов.