Как ИИ создаёт видео: разбираем технологию  В последний — @neurocry

494просмотров

82.3%от подписчиков

12 сентября 2025 г.

📷 ФотоScore: 543

Как ИИ создаёт видео: разбираем технологию  В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов. Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает? 🤔 Анатомия видео-ИИ: латентные диффузионные трансформеры Звучит сложновато, но попробую объянить. 1️⃣ Шаг 1: Диффузия — от шума к картинке Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение. Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием. 2️⃣ Шаг 2: Латентное пространство — сжимаем для скорости Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию. Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много. 3️⃣ Шаг 3: Трансформеры Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT. Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве. 🤔 А что со звуком? Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно. Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео». ❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ

Другие посты @neurocry