18просмотров
12 июля 2025 г.
stats📷 ФотоScore: 20
Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное позади. Ризонинг версию обещают позже, но не факт что она попадёт в опенсорс. При этом стоимость у модели сильно меньше чем у всех конкурентов — $0.6($0.15 при попадании в кэш)/$2.5 за миллион токенов. Китайцы даже запилили хак чтобы подключить её к Claude Code, но непонятно насколько в безопасности ваши данные в китайском API. Но так как модель открытая, то скоро её начнёт хостить дюжина провайдеров, да и селфхостинг тоже опция. Это MoE на архитектуре от DeepSeek V3, размером в триллион параметров, из которых 32B — активные. Тренировали на 15.5 триллионах токенов. Что интересно, использовали MuonClip — модифицированную версию оптимайзера, который придумали в конце прошлого года для спидранов NanoGPT (автора кстати схантили OpenAI). Модификация оптимайзера сделала тренировку крайне стабильной — во время тренировки вообще не было лосс спайков. Китайцы как обычно вытягивают опенсорс. И это даже не первый релиз от Moonshot на этой неделе. На днях они выпустили релизную версию Kimina Prover — семейство SOTA моделей для математики размерами от 1.7B до 72B, самая большая из них обгоняет DeepSeek Prover V2. Веса
Блогпост
Код @ai_newz