D
Dimension AI | Dmitry Sirakov
@dimension_ai2.0K подп.
2.6Kпросмотров
22 ноября 2025 г.
question📷 ФотоScore: 2.8K
GigaChat 3 Ultra - успех или провал? [Часть 4/4] Lightning 🤔 Модель Lightning - тоже MoE. Всего 10B параметров (из которых 1.8B активных), но думаю с 15T претрейна - тут всё хорошо, но ничего особенного я не заметил (и не должно быть по идее?). Больше вопросов у меня вызывает табличка с метриками. В целом оч маленькая моделька, с русским языком, может стать заменой qwen3-8B, если сильно захотеть. Почему-то в категории «сравнимые по скорости» нет основного подходящего конкурента - Qwen3-30B-A3B. Они сравнивают свои 10B со SmolLM 3B от HF (Dense), но не с такой же по скорости Qwen3. В целом, таблица странная: сравниваем скорости - нет моделей покрупнее, но где экспертмы маленькие; сравниваем по количеству параметров - тоже нет аналогов с >= 10B. Хотя, если сравнить с официальными метриками Qwen3-30B-A3B, то он везде превосходит (MMLU 81.38, MMLU-Pro 61.49 против 71.2 и 0.596 у GigaChat соответственно [Да, пнимаю, что может быть небольшая разница в замерах, но что есть, то есть]). Это и неудивительно - модель конкурента сама по себе в 3 раза больше, поэтому логику разделения таблицы по этому параметру я так и не понял. Но здесь модель таких размеров и таких параметров, что ее в целом трудно сравнивать с аналогами. Занимательно, что Yandex GPT 5 Lite Pretrain (на 15T токенов) показывает стабильно лучшее качество и на русских метриках (RU), и на General, и на Math, хотя сама модель меньше. Ещё один повод задуматься о составе претрейна и его качестве. Кнч сравнения неточные, по одну сторону MOE - по другую Dense, но вилами по воде никто не запрещает поводить Команде гигачата - большой респект. Они проделали большую работу и решили многие проблемы - начиная от инфраструктуры, заканчивая прикольными фичами в использовании для разработчиков. Более того, модель в опенсорсе, это не последний чекпоинт и всё еще продолжается какое-то обучение. Теперь осталось посчитать экономику, а потом аой, -20% штата к 1 января 2026г. Предлагаю их поддержать лайками, комментируйте серии постов, пересылайте друзьям ♥️ Часть 1 (Интересно про Pretrain) Часть 2 (Продолжение интересно про Pretrain) Часть 3 (Интересно про SFT + FC) Часть 4 (Интересно про маленькую модель)
2.6K
просмотров
2187
символов
Да
эмодзи
Да
медиа

Другие посты @dimension_ai

Все посты канала →
GigaChat 3 Ultra - успех или провал? [Часть 4/4] Lightning � — @dimension_ai | PostSniper