ГЕНЕРАЦИЯ ВИДЕО ПОДСТИЛАЮЩЕЙ ПОВЕРХНОСТИ НА ОСНОВЕ ОДИНОЧНОГО СНИМКА
Аннотация и ключевые слова
Аннотация:
Генерация видео является одной из наиболее актуальных и сложных задач в области искусственного интеллекта и компьютерного зрения. Ее решение открывает широкие возможности для креативных индустрий, бизнеса, образования, маркетинга. Однако генерация продолжительного, семантически связного видео с высоким разрешением остается нерешенной проблемой. Этим объясняется необходимость создания новых, а также исследования уже существующих моделей. В данной статье проводится сравнительный анализ основных методов генерации видео: вариационных автоэнкодеров (VAE), генеративно-состязательных сетей (GAN), авторегрессионных, flow-based и диффузионных моделей. Рассматриваются их ключевые архитектурные особенности, достоинства и недостатки. Особое внимание в работе уделено диффузионным моделям, которые на данный момент являются передовым подходом для решения задачи генерации видео. За последние несколько лет появилось огромное количество диффузионных моделей генерации видео, среди которых наиболее известными являются Sora (OpenAI), Gen-3 (Runway), Kandinsky (Sber AI), Stable Video Diffusion (Stability AI). Однако большинство из них являются закрытыми, коммерческими продуктами, исходный код и архитектура которых недоступны для исследования и модификации. Для реализации генерации в работе используется диффузионная модель с открытым исходным кодом Stable Video Diffusion. Практическая часть исследования включает генерацию видео на основе исходного изображения подстилающей поверхности, а также анализ полученного результата. Сгенерированные видеопоследовательности могут быть использованы для симуляции различных полетных сценариев и расширения датасетов для беспилотных летательных аппаратов (БПЛА). В ходе анализа качества сгенерированного видео выявлено, что для предотвращения накопления артефактов и ошибок генерации требуется дополнительная обработка последовательности кадров после 10-13 кадра видео. Анализ проводился с помощью набора метрик, отражающих изменение цветовых характеристик и текстуры сгенерированного видео.

Ключевые слова:
НЕЙРОННЫЕ СЕТИ, ГЕНЕРАЦИЯ ВИДЕО, ОБРАБОТКА ИЗОБРАЖЕНИЙ, КАДР, ДИФФУЗИОННЫЕ МОДЕЛИ, ИНТЕРПОЛЯЦИЯ, ЦВЕТОВЫЕ ХАРАКТЕРИСТИКИ
Войти или Создать
* Забыли пароль?