7.7Kпросмотров
20 ноября 2025 г.
📷 ФотоScore: 8.4K
⚡Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0 ❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах 🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр @dendi_math_ai