Исследование 2.2: Финальный манифест и Матрица Выживания Мы — @cat_with_code

191просмотров

5.7%от подписчиков

15 марта 2026 г.

stats📷 ФотоScore: 210

Исследование 2.2: Финальный манифест и Матрица Выживания Мы закончили проверку на вшивость. Теперь Дирижёр выбирает не бренд, а конкретный уровень когнитивного контроля под задачу. ТОП-3: Элита оркестра (Костяк экзоскелета) 🥇 Claude Opus 4.6 Thinking (RPI: 90.00%) — Верховный Архитектор. Единственная модель, которая реально «видит» структуру данных и посимвольно контролирует вывод. Она пробила «стену токенизации» там, где слились все. Её 113 секунд раздумий — это не тормоза, а работа внутреннего цензора. Если на кону стоит дорогое железо и цена ошибки фатальна — только Claude. 🥈 Gemini 3.1 Pro (Preview) (RPI: 85.50%) — Главный Аудитор. Самое мощное возвращение в строй. Модель с железной логикой, которая не угодничает оператору. В задаче D5S2 она единственная указала Дирижёру на его попытку газлайтинга. Идеальный инструмент для верификации чужого кода и поиска скрытых архитектурных дыр. 🥉 Qwen3-Max-Preview (RPI: 63.38%) — Идеальный Наёмник. Лучшая сделка на рынке по соотношению цена/интеллект. Быстрая, стабильная, лишена «амнезии» новых версий. Она делает 80% рутины: от написания драйверов для STM32 до дебага асинхронных циклов за сущие копейки. ТОП-5: Гвардия поддержки (к кому стоит присмотреться) 🔘gpt-5.4 Standard: Тот самый «Ведущий инженер». Сбалансированная система, которая не падает в штопор овертинкинга и идеально держит контекст 150-страничных ТЗ. 🔘Kimi-K2.5-Instant: Чемпион по честности. Быстрая и предсказуемая. Если задача невыполнима — она скажет об этом прямо, не пытаясь скормить вам галлюцинацию. 🔘DeepSeek-v3.2 Base: «Рабочая лошадка» коротких дистанций. Идеально попадает в SFT-зону до 4000 токенов. Написать 100 простых функций за обед — это к ней. 🔘gemini-3.1-flash: Скоростной диспетчер. Её КПД (EAS) зашкаливает. Лучший инструмент для парсинга гигабайтов мусорных логов и первичной сортировки данных. 🔘Claude Sonnet 4.6: Высокоскоростной спец. Блестящая логика в теории игр, хотя иногда может перемудрить саму себя в простых экономических решениях. P.S. Такие модели как GLM-5, GLM-4.7 и Minimax M2.5 также успешно закрыли основную массу задач (D13–D57). Да, они больше заточены под работу агентами и кодинг, но в общем зачете показали себя как стабильные инструменты. Кот в Коде | @kot_research_bot

Другие посты @cat_with_code