Карго-культ и инженерия агентных систем Как и в любой быстро — @korneychukov

1.2Kпросмотров

14 декабря 2025 г.

Score: 1.3K

Карго-культ и инженерия агентных систем Как и в любой быстро развивающейся области, в мире LLM копится опыт — и одновременно теряется способность этот опыт нормально систематизировать. Проблема старая (в классическом ML она тоже была), но сейчас она усугубляется двумя вещами: тотальной непрозрачности современных решений и крайней сложности воспроизводимости. Как проходили соревнования во времена Kaggle: - Решения часто были открыты: можно было посмотреть кернел победителя и понять, что именно «под капотом». - Данные — тоже открытые: есть общий тест, понятные метрики, сравнение «в лоб». - Победители публиковали разборы: что пробовали, что не сработало, где был реальный прирост. Как это происходит сейчас вокруг агентов: - Полноценные, воспроизводимые описания дают единицы. Из тех, кто стабильно делает это хорошо, первой приходит в голову Anthropic со своими инженерными постами. - Те же, кто рассказывают частично - часто опускают важные для воспроизводимости элементы (вы видели хотя бы один датасет от крупной компании, который бы позволил тестировать агентский пайплайн? Я нет) При этом вокруг появляется всё больше постов про «позитивный опыт» очередного подхода. И именно здесь агентская разработка особенно легко скатывается в карго-культ: верить можно, а дёшево проверить — крайне сложно. Датасеты закрыты, метрики у каждого свои, пайплайн под оценку нужно собирать самому. В результате дискуссия нередко уходит в обсуждение терминов и формулировок, и лишь после внимательного разбора становится понятно, какие именно идеи за ними стоят — и стоят ли вообще. На этом фоне самая здравая попытка сравнить подходы в более-менее общем формате — соревнование ERC-3 от Рината (жду результаты с большим интересом). Но участвует в нём сравнительно небольшая часть комьюнити. Остальные продолжают транслировать в паблик идеи, которые иногда просто неточны — а иногда прямо являются побочным продуктом галлюцинаций LLM. Единственный практичный выход я вижу в одном: строить собственные пайплайны тестирования и оценки под задачи вашей предметной области. Да, это дороже и дольше, чем «поверить» в очередной подход. Зато это возвращает землю под ногами: вы сами понимаете, что работает хорошо, а что - не очень. Со временем шум неизбежно уляжется: появится более устойчивая терминология, набор практик, понятные «референсные» пайплайны, которые можно будет брать и внедрять. Но пока этого не произошло, значительную часть новостей про yet another agentic pipeline стоит воспринимать как гипотезу, а не как факт — и проверять самостоятельно. Иначе слишком легко стать адептом очередной «красивой идеи», которая в реальности не обусловлена никакими объективными метриками.

Другие посты @korneychukov