Ч
Чуковский
@korneychukov769 подп.
1.3Kпросмотров
12 января 2026 г.
📷 ФотоScore: 1.4K
Новая статья от Anthropic про evals! Пока мы тут с вами откисали на праздниках, Anthropic сделали нам новогодний подарок, и выкатили крутой пост про измерение качества работы агентов. Как всегда, годнота с кучей практических советов, следование которым может сэкономить часы, потраченные на отладку и помочь понять, почему все перестало работать, хотя вчера работало нормально. Многие из них я видел раньше, но настолько лаконичное и одновременно емкое описание evals я вижу впервые. Многое рифмуется с тем, что писал Ринат в @llm_under_hood и в курсе, но есть и новые для меня вещи Я приведу здесь несколько тезисов, просто чтобы описать, о чем статья: 🟢С самого начала разработки агента формируйте набор тестов в виде 20-50 примеров, которые вы и так проверяете вручную. На этом этапе ваша задача - отладить пайплайн тестирования и научиться запускать его после каждого изменения, в максимально близком к продовому состоянии. 🟢По мере роста проекта пополняйте тестовый набор понятными изолированными примерами, каждый из которых проверяет какой-то простой механизм вашего агента или их комбинацию. 🟢Следите чтобы множество ваших тестов было сбалансировано относительно запросов вашего продукта. Если вашего агента просят выключить свет в 80% случаях, то в датасете должно быть много запросов на тему управления умным домом, но также помимо них обязательно должны быть нерелевантные запросы, а также низкочастотные - в соответствующем вашему продукту количестве. 🟢 Чем лучше настроены ваши инструменты для тестирования, и чем полнее ваш тестсет, тем быстрее вы будете замечать несоответствия в поведении системы, и внедрять исправления. Если тесты настроены правильно, то вы сможете даже приблизительно предсказать, на сколько изменится success rate вашей системы, просто глядя на статистику очередного прогона. В общем, очень крутой и емкий материал, с примерами, и максимально понятный даже новичку в теме. Читать строго обязательно! Линк @korneychukov
1.3K
просмотров
1967
символов
Да
эмодзи
Да
медиа

Другие посты @korneychukov

Все посты канала →
Новая статья от Anthropic про evals! Пока мы тут с вами отки — @korneychukov | PostSniper