Сбер выпустил GigaChat 3 с открытыми весами GigaChat 3 Ultra — @shittyai

2просмотров

50.0%от подписчиков

25 ноября 2025 г.

stats📷 ФотоScore: 2

Сбер выпустил GigaChat 3 с открытыми весами GigaChat 3 Ultra Preview — флагман - 702 миллиарда параметров (36 млрд активных) - Первая открытая модель такого масштаба, нативно обученная на русском языке - Обучена с нуля на собственном датасете из 14 триллионов токенов - Архитектура MoE - активируется только 5% параметров - Поддержка контекста до 128 000 токенов HuggingFace GitHub GigaChat 3 Lightning — компактная версия - 10 млрд общих параметров (1.8 млрд активных) - Можно запустить на ноутбуке - По скорости сопоставима с Qwen3-1.7B (с включённым MTP) - Поддержка контекста до 256 000 токенов (в 8 раз больше конкурентов!) - Превосходит Qwen3-4B по general-метрикам HuggingFace GitHub Наверное это одни из первых полностью обученных моделей такого уровня с нуля, а не до обученных зарубежных, начиная с морфологии заканчивая культурным контекстом они обучались на русском языке, и готовили их к пониманию именно русского. 5.5 триллионов токенов качественной синтетики в корпусе, ну и что радует это все на MIT лицензии Добавили также поддержку 10 языков: китайский, арабский, узбекский, казахский и другие. Собственный YT-кластер на 10 000 ядер и 5 ПБ хранилища для подготовки данных. Новый chat-template с иерархией ролей и поддержкой TypeScript для описания функций (на 30% компактнее JSON). Провели 179 экспериментов с составом данных для оптимизации корпуса Бенчмарки MMLU-RU: 68.33% (Lightning) - победа в open source на русском языке LiveCodeBench: 20.31% (Lightning) - отличные результаты по программированию Математика: +7% после RL-обучения Программирование: +15% после Chain-of-Thought RL Lightning превосходит по скорости YandexGPT-5-Lite и GigaChat-2-Lite в 2,5 раза при сопоставимом качестве Полная статья на Habr

Другие посты @shittyai