13просмотров
59.1%от подписчиков
27 февраля 2026 г.
📷 ФотоScore: 14
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM. Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке). С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост). Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3. Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.