📈 Тирлист ЛЛМок начавшегося 2026 (саммари кликбейта) Готовл — @asvishnya_blog

161просмотров

8 февраля 2026 г.

stats📷 ФотоScore: 177

📈 Тирлист ЛЛМок начавшегося 2026 (саммари кликбейта) Готовлюсь к паре мероприятий (будет скоро подкаст, где-то рядом лекторий), поэтому на фоне прокручиваю разные материалы разной степени предметности вокруг моделек. Попался тут от Глеба ролик с кликбейтным заголовком и отчасти дискуссионным содержимым по топу лучших LLMок в 2026 (год только начался, конечно 😮, но все же). Давно не видел тирлистов и чем-то напомнило времена, когда 9impulse сравнивал героев из Apex Legends после регулярных патчей от команды Respawn. Субъективно, без глубокой привязки к бэнчам, но всяко тоже опыт со стороны с отголосками по широкому спектру задач: кодинг, RAG, зрение и все такое. Видео тут. — А в качестве вольного саммари (см. скрин из видео, а также результаты транскрибации и суммаризации от S-тира Gemini 3) имеем: 🔥 S-Tier = Элита ("самые умные") Gemini 3 Pro: Самая "мозговитая" модель на рынке. Если нужно решить сложный алгоритм или математическую задачу - это к ней, однако: - тупеет при поиске в интернете; - слабый tool calling. Opus 4.5: Лидер при работе внутри среды Claude Code. Отличный tool calling. - может быть неаккуратной в больших спеках (ТЗшках). GPT-5.2 High: Лучший автономный агент. В связке с OpenAI Codex творит чудеса: может часами писать код, сама себя тестировать и доводить задачу до конца, не упуская мелочей. 🚀 A-Tier = Мощь и перспектива Grok 4.1: Главное открытие. Раньше модели от xAI были слабыми, но 4.1 - это мощный скачок. Являются лучшими в соотношении цена/качества (на OR цена в $0.5 за 1М токенов), при этом по "уму" почти догоняет топов. Sonnet 4.5: Все еще хороша, но безнадежно проигрывает по цене. Через API использовать нет смысла (дорого), только в рамках подписки Claude. GPT-5.2 Codex High: Специфическая модель («программист-аутист» 😂). Общаться с ней сложно, она отвечает скриптами (Python/Bash). Идеальная для глобального рефакторинга и поиска по миллионам файлов кода. ⚖️ B-Tier = "Рабочие лошадки" (середняки) Здесь лоцированы модельки для массовых задач, где не нужна гениальность, но в приоритете скорость и цена. Gemini 3 Flash: Быстрая, дешевле "прошки", неплоха в tool calling. GLM 4.7 & Kimi K2.5: Китайские альтернативы. Неплохо и дешево, но звезд с неба не хватают. DeepSeek 3.2: Хороший вариант для классификации и рутины. Дешево и сердито. 📉 С, D, F = либо аутсайд, либо неплохо иметь сравнительно прямые руки для подгона под задачу (отсылка к OSS) C-Tier: GPT-OSS 120B. Очень дешевая, требует инженерии (из коробки не творит чудес), в обвязке SGR интересна для жестких агентских схем (Илья на ERC3 показал вместе со скоростью от Cerebras). D-Tier: Gemini 2.5 Pro, Qwen3 235. 2.5 Pro морально устарела. В целом, есть аналоги, которые либо умнее за те же деньги, либо такие же, но сильно дешевле (здесь Qwen3 я бы так сильно, конечно, не хейтил 😁) F-Tier: Gemini 2.5 Flash. Глючная и слабая. Не рекомендуется на фоне Gemini 3. — ЗЫ: да-да, даже это видео, вышедшее 2 дня назад, успело устареть, потому что вышли очередные гейм-чейнджеры: Opus 4.6 vs GPT 5.3 👋

Другие посты @asvishnya_blog