Бенчмарки качества для AI-агентов: как перейти от «вроде раб — @bitrix24mcp

816просмотров

33.0%от подписчиков

4 марта 2026 г.

Score: 898

Бенчмарки качества для AI-агентов: как перейти от «вроде работает» к измеримым результатам Когда AI-агент в продакшене начинает давать некорректные ответы, сложно понять: это новая ошибка, регрессия после правки промпта, или просто редкий кейс? Ручное тестирование не масштабируется – особенно при частых изменениях. Мы построили систему автоматической оценки качества для агента Марта в Битрикс24. И хотим поделиться с вами этим опытом. Вот ключевые этапы: 🔹Observability Подключили Langfuse – собираем трейсы: вход, выход, шаги, модель, токены. Это база для анализа. 🔹Тестовые сценарии Собрали 20–30 реальных кейсов: — баги из прода — фидбэк пользователей — обогащённые трейсы с ожидаемым результатом Не нужно 500 – хватает 10–20 качественных. 🔹Среда запуска Настроили пайплайн: загрузка датасета → запуск агента → запись трейса → оценка. Важно: агент должен работать в реальном окружении (CRM, контекст портала), а не в моке. 🔹Варианты проверки Используем три подхода: — Код: для структурированных ответов (например, заполнение полей сделки). Проверяем: JSON валиден? Все поля на месте? Значения точные? — LLM-судья: для свободных ответов. Разбиваем ожидаемый результат на факты. Судья проверяет, отражён ли каждый факт в ответе. — Человек: создаёт факты, проверяет работу судьи, фиксирует ошибки. 🔹Анализ и тренды Запускаем один и тот же сценарий 5 раз (pass@k). Считаем частоту успеха – не бинарный результат, а стабильность. Сравниваем прогоны: после правки промпта метрики выросли или упали? Пример: модель с 4x меньше параметров показала сопоставимый результат – без бенчмарков мы бы переплатили. Что не работает: — Один прогон = одна точка. Тренд реально отследить только по нескольким запускам. — 100% точность не является целью. Для сложных задач 70–80% – норма. — Эмбеддинги плохо ловят перефразирования – используйте LLM-судью для текстовых полей. Следующие шаги: — Проверка траектории (как агент пришёл к ответу, а не только что ответил) — Интеграция в CI: автоматический запуск бенчмарков при изменении промпта — Автоматическая разметка ошибок из прода Система не сделала агента идеальным. Но теперь мы знаем, что именно сломалось – и почему. Подробнее в статье #AIагенты #Битрикс24 #Бенчмарки #Качество

Другие посты @bitrix24mcp