🏆 GigaChat 3 Ultra Preview & Lightning: открытые MoE-модели — @gigadev_channel

12.1Kпросмотров

21 ноября 2025 г.

stats📷 ФотоScore: 13.3K

🏆 GigaChat 3 Ultra Preview & Lightning: открытые MoE-модели нового поколения В этом году мы уже радовали вас новой линейкой GigaChat 2, добавлением Reasoning в наш Web (giga.chat), опенсорсом GigaChat Lite и Giga-Embeddings и первым местом на бенчмарке ruMTEB. Что нового в этот раз? Впервые в России обучены MoE-модели такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение огромных MoE-модели требует не только колоссальных вычислительных ресурсов, но и решения множества инженерных вызовов: от нестабильности вычислений с плавающей точкой до оптимизации межузловой коммуникации и балансировки нагрузки между экспертами. Поэтому сегодня мы открываем веса двух флагманских MoE-моделей — GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B) — полностью доступных сообществу с лицензией для коммерческого использования. GigaChat 3 Ultra Preview 🔘702B параметров (36B активных на токен) 🔘Работает быстрее GigaChat 2 Max 🔘Топ-1 на MERA 🔘Поддерживает контекст в 131 тысячу токенов ⚡️ Модель продолжает обучение — финальная версия будет еще мощнее! ➡ GitVerse | HuggingFace | GitHub GigaChat 3 Lightning 🔘10B параметров (1.8B активных) 🔘Достигла уровня лидера open-source своего класса — Qwen3-4B со скоростью генерации в 1.5 раз выше, как у Qwen3-1.7B 🔘Идеальна в качестве легковесного помощника для локального использования (офлайн-ассистент, прототипирование) 🔘Поддерживает контекст в 256 тысяч токенов ➡ GitVerse | HuggingFace | GitHub Обе модели • Не являются reasoning моделями • Умеют предсказывать сразу несколько токенов • Другой вид механизма внимания снижает размер KV cache • Обучены с нуля — без инициализации чужими весами • Открытые веса и лицензия c возможностью коммерческого использования • Полностью совместимы с Hugging Face, vLLM / SGLang и стандартными пайплайнами ✈️Подробнее можно прочитать в статье на Habr.

Другие посты @gigadev_channel