В соцсетях схлестнулся с корпоративными инженерами, которые — @ad_kad

2.4Kпросмотров

39.3%от подписчиков

17 марта 2026 г.

Score: 2.6K

В соцсетях схлестнулся с корпоративными инженерами, которые хором орут «локалки тупые ууууу ты ниче не понимаешь». Разбираю их по косточкам с исследованиями. Тем кто оплачивает счета за api от 2к$ читать обязательно. Их главный аргумент: зачем возиться с железом, если за копейки есть Haiku/Flash, которые умнее любой локалки? Звучит логично если ты никогда не считал деньги на масштабе и тебе плевать на сохранность своих данных. Теперь исследования (ого, со ссылками!): Качество. NVIDIA Research на arXiv доказали: для агентских задач (API, парсинг, классификация) модели до 10B предсказуемее и галлюцинируют меньше, чем GPT-4/5 (Small Language Models are the Future of Agentic AI). Microsoft с Phi-4 показали: 14B на синтетических данных обходит гигантов в логике и кодинге, в 20 раз быстрее (Phi-4 Technical Report). IBM подтвердили: связка специализированных малышей бьёт универсальную модель по метрике "качество на доллар". (Power of Small Language Models, IBM). Деньги. Обслуживание 7B модели обходится в 10–30 раз дешевле, чем 70–175B (Enterprise SLM 2026, Iterathon). А дообучить 7B под свою нишу — пара сотен баксов. Попробуй объясни контекст Haiku через промпт на 10к токенов каждый раз — и посчитай чек в конце месяца. А теперь самое следнькое: IBM Research рассказали про роутер, который как диспетчер раскидывает запросы по моделям — и это минус до 85% на инференсе (LLM Routers, IBM Research тут старое исследование, но все еще валидное). LMSYS подтвердили эффект на своём RouteLLM (RouteLLM, LMSYS). Работает так: - Диспетчер (Phi, 1B–3B) — смотрит на запрос и решает, кому отдать. - Рабочая лошадка (7B–14B) — закрывает 90% задач на месте. Без облака, без утечек, без счетов. - Эксперт — только 5–10% сложных запросов уходят на тяжёлую модель. Итого: локалки не замена чату джипити. И хайку не замена локалок. Но хайку реально заменят некоторых тупорезов, которые не в состоянии понять, что забивать микроскопом гвозди прикольно, когда за это платит кто-то другой. Финальный совет всем, кто оплачивает API-счета по рекомендации таких вот специлистов: - срочно добавляйте в KPI показатель CPT (стоимость 1го корпоративного токена), сразу увидите как инженеры начнут внедрять «эти тупые локалки». - приходи на консультацию — разберём, сколько из этих затрат реально оправданы. Консультация — 150 баксов, которые скорее всего отобьются за пару часов после звонка или вот тебе гайд по внедрению

Другие посты @ad_kad