2.2Kпросмотров
51.6%от подписчиков
2 марта 2026 г.
storyScore: 2.4K
Мой коллега Сева выкатил свежую статью на Хабре - про тестирование ai-сценариев и агентов. Внутри - конкретный путь от отсмотра ответов «глазками» до работающей системы бенчмарков, LLM-судей, Langfuse и конечно грабли которые мы собрали по дороге. Все это на примере реальных кейсов из прода. Читается за 9 минут, и есть что унести с собой. И уже по традиции:
договорился, что Сева ответит на вопросы в комментах к этому посту - если что-то осталось непонятным или хочется уточнить детали реализации)