678просмотров
53.4%от подписчиков
16 марта 2026 г.
Score: 746
прочитал статью от победителя в конкурсе по созданию ИИ агентов которую проводил Стенфорд Основные проблемы «выживания» агента:
Дрейф схем
В реальности названия колонок в базах данных часто изменяются изменяются и Агенты, обученные на жестких паттернах, перестают работать. Засорение контекста.
Со временем базы данных растут, и на запрос агента приходит 80% «шума» (старые звонки, нерелевантные логи) и лишь 20% полезного сигнала. Не все данные
Агент должен уметь не отвечать вообще, если данных недостаточно или они противоречивы. Как проверить качество?
Для измерения качества агента можно использовать бенчмарк, который оценивает агентов по 7 измерениям: - Функциональная точность Правильность ответа с учетом данных из базы - Адаптация к дрейфу Насколько падает точность при изменении имен полей. - Эффективность в токенах
Сколько ресурсов тратит агент - Эффективность запросов Делает ли агент 2-3 точных запроса в БД или 20 случайных - Обработка ошибок
Умеет ли агент признавать нехватку данных - Эффективность траектории Кратчайший ли путь выбран для решения. - Уровень галлюцинаций Частота выдуманных фактов или неверных вызовов инструментов ✍️ Blog Hanzo