2просмотров
50.0%от подписчиков
25 ноября 2025 г.
stats📷 ФотоScore: 2
Сбер выпустил GigaChat 3 с открытыми весами GigaChat 3 Ultra Preview — флагман
- 702 миллиарда параметров (36 млрд активных)
- Первая открытая модель такого масштаба, нативно обученная на русском языке
- Обучена с нуля на собственном датасете из 14 триллионов токенов
- Архитектура MoE - активируется только 5% параметров
- Поддержка контекста до 128 000 токенов
HuggingFace GitHub GigaChat 3 Lightning — компактная версия
- 10 млрд общих параметров (1.8 млрд активных)
- Можно запустить на ноутбуке
- По скорости сопоставима с Qwen3-1.7B (с включённым MTP)
- Поддержка контекста до 256 000 токенов (в 8 раз больше конкурентов!)
- Превосходит Qwen3-4B по general-метрикам
HuggingFace GitHub Наверное это одни из первых полностью обученных моделей такого уровня с нуля, а не до обученных зарубежных, начиная с морфологии заканчивая культурным контекстом они обучались на русском языке, и готовили их к пониманию именно русского. 5.5 триллионов токенов качественной синтетики в корпусе, ну и что радует это все на MIT лицензии Добавили также поддержку 10 языков: китайский, арабский, узбекский, казахский и другие. Собственный YT-кластер на 10 000 ядер и 5 ПБ хранилища для подготовки данных. Новый chat-template с иерархией ролей и поддержкой TypeScript для описания функций (на 30% компактнее JSON). Провели 179 экспериментов с составом данных для оптимизации корпуса Бенчмарки
MMLU-RU: 68.33% (Lightning) - победа в open source на русском языке
LiveCodeBench: 20.31% (Lightning) - отличные результаты по программированию
Математика: +7% после RL-обучения
Программирование: +15% после Chain-of-Thought RL Lightning превосходит по скорости YandexGPT-5-Lite и GigaChat-2-Lite в 2,5 раза при сопоставимом качестве Полная статья на Habr