сотрудник
Казанский национальный исследовательский технический университет им. А.Н. Туполева
студент с 01.01.2024 по настоящее время
сотрудник с 01.01.1997 по настоящее время
Россия
Генерация видео является одной из наиболее актуальных и сложных задач в области искусственного интеллекта и компьютерного зрения. Ее решение открывает широкие возможности для креативных индустрий, бизнеса, образования, маркетинга. Однако генерация продолжительного, семантически связного видео с высоким разрешением остается нерешенной проблемой. Этим объясняется необходимость создания новых, а также исследования уже существующих моделей. В данной статье проводится сравнительный анализ основных методов генерации видео: вариационных автоэнкодеров (VAE), генеративно-состязательных сетей (GAN), авторегрессионных, flow-based и диффузионных моделей. Рассматриваются их ключевые архитектурные особенности, достоинства и недостатки. Особое внимание в работе уделено диффузионным моделям, которые на данный момент являются передовым подходом для решения задачи генерации видео. За последние несколько лет появилось огромное количество диффузионных моделей генерации видео, среди которых наиболее известными являются Sora (OpenAI), Gen-3 (Runway), Kandinsky (Sber AI), Stable Video Diffusion (Stability AI). Однако большинство из них являются закрытыми, коммерческими продуктами, исходный код и архитектура которых недоступны для исследования и модификации. Для реализации генерации в работе используется диффузионная модель с открытым исходным кодом Stable Video Diffusion. Практическая часть исследования включает генерацию видео на основе исходного изображения подстилающей поверхности, а также анализ полученного результата. Сгенерированные видеопоследовательности могут быть использованы для симуляции различных полетных сценариев и расширения датасетов для беспилотных летательных аппаратов (БПЛА). В ходе анализа качества сгенерированного видео выявлено, что для предотвращения накопления артефактов и ошибок генерации требуется дополнительная обработка последовательности кадров после 10-13 кадра видео. Анализ проводился с помощью набора метрик, отражающих изменение цветовых характеристик и текстуры сгенерированного видео.
НЕЙРОННЫЕ СЕТИ, ГЕНЕРАЦИЯ ВИДЕО, ОБРАБОТКА ИЗОБРАЖЕНИЙ, КАДР, ДИФФУЗИОННЫЕ МОДЕЛИ, ИНТЕРПОЛЯЦИЯ, ЦВЕТОВЫЕ ХАРАКТЕРИСТИКИ



