12.1Kпросмотров
21 ноября 2025 г.
stats📷 ФотоScore: 13.3K
🏆 GigaChat 3 Ultra Preview & Lightning: открытые MoE-модели нового поколения В этом году мы уже радовали вас новой линейкой GigaChat 2, добавлением Reasoning в наш Web (giga.chat), опенсорсом GigaChat Lite и Giga-Embeddings и первым местом на бенчмарке ruMTEB. Что нового в этот раз? Впервые в России обучены MoE-модели такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение огромных MoE-модели требует не только колоссальных вычислительных ресурсов, но и решения множества инженерных вызовов: от нестабильности вычислений с плавающей точкой до оптимизации межузловой коммуникации и балансировки нагрузки между экспертами. Поэтому сегодня мы открываем веса двух флагманских MoE-моделей — GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B) — полностью доступных сообществу с лицензией для коммерческого использования. GigaChat 3 Ultra Preview
🔘702B параметров (36B активных на токен)
🔘Работает быстрее GigaChat 2 Max
🔘Топ-1 на MERA
🔘Поддерживает контекст в 131 тысячу токенов ⚡️ Модель продолжает обучение — финальная версия будет еще мощнее!
➡ GitVerse | HuggingFace | GitHub GigaChat 3 Lightning
🔘10B параметров (1.8B активных)
🔘Достигла уровня лидера open-source своего класса — Qwen3-4B со скоростью генерации в 1.5 раз выше, как у Qwen3-1.7B
🔘Идеальна в качестве легковесного помощника для локального использования (офлайн-ассистент, прототипирование)
🔘Поддерживает контекст в 256 тысяч токенов
➡ GitVerse | HuggingFace | GitHub Обе модели
• Не являются reasoning моделями
• Умеют предсказывать сразу несколько токенов
• Другой вид механизма внимания снижает размер KV cache
• Обучены с нуля — без инициализации чужими весами
• Открытые веса и лицензия c возможностью коммерческого использования
• Полностью совместимы с Hugging Face, vLLM / SGLang и стандартными пайплайнами ✈️Подробнее можно прочитать в статье на Habr.