816просмотров
33.0%от подписчиков
4 марта 2026 г.
Score: 898
Бенчмарки качества для AI-агентов: как перейти от «вроде работает» к измеримым результатам Когда AI-агент в продакшене начинает давать некорректные ответы, сложно понять: это новая ошибка, регрессия после правки промпта, или просто редкий кейс? Ручное тестирование не масштабируется – особенно при частых изменениях. Мы построили систему автоматической оценки качества для агента Марта в Битрикс24. И хотим поделиться с вами этим опытом. Вот ключевые этапы:
🔹Observability
Подключили Langfuse – собираем трейсы: вход, выход, шаги, модель, токены. Это база для анализа. 🔹Тестовые сценарии
Собрали 20–30 реальных кейсов:
— баги из прода
— фидбэк пользователей
— обогащённые трейсы с ожидаемым результатом
Не нужно 500 – хватает 10–20 качественных. 🔹Среда запуска
Настроили пайплайн: загрузка датасета → запуск агента → запись трейса → оценка.
Важно: агент должен работать в реальном окружении (CRM, контекст портала), а не в моке. 🔹Варианты проверки
Используем три подхода:
— Код: для структурированных ответов (например, заполнение полей сделки). Проверяем: JSON валиден? Все поля на месте? Значения точные?
— LLM-судья: для свободных ответов. Разбиваем ожидаемый результат на факты. Судья проверяет, отражён ли каждый факт в ответе.
— Человек: создаёт факты, проверяет работу судьи, фиксирует ошибки. 🔹Анализ и тренды
Запускаем один и тот же сценарий 5 раз (pass@k). Считаем частоту успеха – не бинарный результат, а стабильность.
Сравниваем прогоны: после правки промпта метрики выросли или упали?
Пример: модель с 4x меньше параметров показала сопоставимый результат – без бенчмарков мы бы переплатили. Что не работает:
— Один прогон = одна точка. Тренд реально отследить только по нескольким запускам.
— 100% точность не является целью. Для сложных задач 70–80% – норма.
— Эмбеддинги плохо ловят перефразирования – используйте LLM-судью для текстовых полей. Следующие шаги:
— Проверка траектории (как агент пришёл к ответу, а не только что ответил)
— Интеграция в CI: автоматический запуск бенчмарков при изменении промпта
— Автоматическая разметка ошибок из прода Система не сделала агента идеальным. Но теперь мы знаем, что именно сломалось – и почему. Подробнее в статье #AIагенты #Битрикс24 #Бенчмарки #Качество