🎬 Helios: открытая 14B-модель генерирует видео длиной больш — @neurohive

3.7Kпросмотров

80.8%от подписчиков

11 марта 2026 г.

stats🎬 ВидеоScore: 4.1K

🎬 Helios: открытая 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100 Исследователи из Пекинского университета и ByteDance выпустили Helios — открытую 14B-модель, которая генерирует видео в реальном времени - 19,5 кадров в секунду, длительностью больше минуты. Для сравнения, базовая модель Wan-2.1 14B тратит около 17 минут на 5-секундный клип. Helios делает то же самое в 128 раз быстрее — и при этом генерирует видео длиной в минуту без деградации качества. Helios работает в трех режимах: text-to-video, image-to-video, video-to-video. Исследователям это удалось без KV-cache, квантования и sparse attention. Токены сжимаются в 8 раз: чем старше кадр, тем ниже его разрешение. Диффузионное сэмплирование идёт от низкого разрешения к высокому, сокращая токены ещё в 2,3 раза. Дистилляция урезает шаги сэмплирования с 50 до 3. Накопление ошибок при длинных видео решается тремя приёмами: относительное позиционное кодирование, первый кадр как визуальный якорь на всё видео, и намеренное зашумление предыдущих кадров во время обучения. На коротких видео (81 кадр) Helios-Distilled обходит все дистиллированные модели и не уступает базовым того же размера — при скорости 19,53 FPS на одной H100. FastVideo и TurboDiffusion работают в 2–3 раза медленнее, Wan 2.1 14B — в 52 раза. На длинных (1440 кадров, ~74 секунды при 19,5 FPS) Helios-Distilled показывает лучший суммарный результат с учётом скорости, при этом накопление ошибок ниже по большинству метрик — сцена не плывёт, цвета не уходят на протяжении тысяч кадров. Пользовательское тестирование на 200 человек подтверждает: Helios побеждает в 70–92,5% попарных сравнений на длинных видео и в 56–99,2% — на коротких. Исследователи опубликовали код на GitHub, а также демо и веса трёх версий модели на Hugging Face. #Stateoftheart

Другие посты @neurohive