Herald of Technological University

ВЕСТНИК ТЕХНОЛОГИЧЕСКОГО УНИВЕРСИТЕТА

3034-4689

114023

10.55421/3034-4689_2025_28_12_124

3. Информатика, вычислительная техника и управление

3. Information teory, computer technology and control

3. Информатика, вычислительная техника и управление

VIDEO GENERATION OF THE UNDERLYING SURFACE BASED ON A SINGLE IMAGE

ГЕНЕРАЦИЯ ВИДЕО ПОДСТИЛАЮЩЕЙ ПОВЕРХНОСТИ НА ОСНОВЕ ОДИНОЧНОГО СНИМКА

Колобова

Дарья Алексеевна

Kolobova

Dar'ya Alekseevna

darya.kolobova@inbox.ru

Шлеймович

Михаил Петрович

Shleymovich

Mikhail Petrovich

shlch@mail.ru

кандидат технических наук;

candidate of technical sciences;

Казанский национальный исследовательский технический университет им. А.Н. Туполева Kazan National Research Technical University named after A.N. Tupolev

28 01 2026

28 12 124 134 28 01 2026

https://www.elibrary.ru/item.asp?id=87262347

Генерация видео является одной из наиболее актуальных и сложных задач в области искусственного интеллекта и компьютерного зрения. Ее решение открывает широкие возможности для креативных индустрий, бизнеса, образования, маркетинга. Однако генерация продолжительного, семантически связного видео с высоким разрешением остается нерешенной проблемой. Этим объясняется необходимость создания новых, а также исследования уже существующих моделей. В данной статье проводится сравнительный анализ основных методов генерации видео: вариационных автоэнкодеров (VAE), генеративно-состязательных сетей (GAN), авторегрессионных, flow-based и диффузионных моделей. Рассматриваются их ключевые архитектурные особенности, достоинства и недостатки. Особое внимание в работе уделено диффузионным моделям, которые на данный момент являются передовым подходом для решения задачи генерации видео. За последние несколько лет появилось огромное количество диффузионных моделей генерации видео, среди которых наиболее известными являются Sora (OpenAI), Gen-3 (Runway), Kandinsky (Sber AI), Stable Video Diffusion (Stability AI). Однако большинство из них являются закрытыми, коммерческими продуктами, исходный код и архитектура которых недоступны для исследования и модификации. Для реализации генерации в работе используется диффузионная модель с открытым исходным кодом Stable Video Diffusion. Практическая часть исследования включает генерацию видео на основе исходного изображения подстилающей поверхности, а также анализ полученного результата. Сгенерированные видеопоследовательности могут быть использованы для симуляции различных полетных сценариев и расширения датасетов для беспилотных летательных аппаратов (БПЛА). В ходе анализа качества сгенерированного видео выявлено, что для предотвращения накопления артефактов и ошибок генерации требуется дополнительная обработка последовательности кадров после 10-13 кадра видео. Анализ проводился с помощью набора метрик, отражающих изменение цветовых характеристик и текстуры сгенерированного видео.

Video generation is one of the most urgent and challenging tasks in the field of artificial intelligence and computer vision. Solution of this task opens up wide opportunities for creative industries, business, education, and marketing. However, generating long-lasting, semantically coherent high-resolution video remains an unsolved problem. This explains necessity to create new models, as well as research existing models. This article provides a comparative analysis of the main methods of video generation: variational autoencoders (VAE), generative-adversarial networks (GAN), autoregressive, flow-based and diffusion models. Their key architectural features, advantages and disadvantages are considered. Special attention is paid to diffusion models, which are currently an advanced approach for solving the problem of video generation. Over the past few years, a huge number of diffusion video generation models have appeared, among which the most famous are Sora (OpenAI), Gen-3 (Runway), Kandinsky (Sber AI), Stable Video Diffusion (Stability AI). However, most of them are closed, commercial products, the source code and architecture of which are inaccessible for research and modification. The open source Stable Video Diffusion model is used to implement the generation. The practical part of the study includes video generation based on the original image of the underlying surface, as well as analysis of the result. The generated video sequences can be used to simulate various flight scenarios and expand datasets for unmanned aerial vehicles (UAVs). During the analysis of the quality of the generated video, it was revealed that additional processing of the sequence of frames after 10-13 frames of the video is required to prevent the accumulation of artifacts and generation errors. The analysis was carried out using a set of metrics reflecting changes in the color characteristics and texture of the generated video.

НЕЙРОННЫЕ СЕТИ ГЕНЕРАЦИЯ ВИДЕО ОБРАБОТКА ИЗОБРАЖЕНИЙ КАДР ДИФФУЗИОННЫЕ МОДЕЛИ ИНТЕРПОЛЯЦИЯ ЦВЕТОВЫЕ ХАРАКТЕРИСТИКИ

NEURAL NETWORKS VIDEO GENERATION IMAGE PROCESSING FRAME DIFFUSION MODELS INTERPOLATION COLOR CHARACTERISTICS