D
Dendi Math&AI
@dendi_math_ai6.0K подп.
14.1Kпросмотров
30 сентября 2025 г.
stats🎬 ВидеоScore: 15.5K
🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬 Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости ⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео): 💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite) 💡 CFG-distilled: x2 быстрее 💡 Diffusion-distilled: x6 быстрее при минимальной потере качества 💡 Pretrain: для исследований и дообучения ⚡️Некоторые технические детали: 💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр) 💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен 💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству 💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA ⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность ⚡️Где и как можно потестить: 💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей) 💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI 💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования И ещё раз все полезные ссылки в одном месте: 👉 Хабр (технические подробности) 👉 Project Page (демо) 👉 Github (код) 👉 Hugging Face (чекпоинты) 👉 GitVerse (код) 👉 NABLA (paper) 👉 Бот для записи в вайтлист @dendi_math_ai
14.1K
просмотров
3122
символов
Нет
эмодзи
Да
медиа

Другие посты @dendi_math_ai

Все посты канала →