💭 Как мы оцениваем LLM и агентов? Текстовые бенчмарки — оди — @nado_razobratsya_ai

238просмотров

24 декабря 2025 г.

questionScore: 262

💭 Как мы оцениваем LLM и агентов? Текстовые бенчмарки — один прогон. Агентные задачи — 1–3 запуска из фиксированного состояния. И после этого делаются выводы о качестве и готовности агентов. Где статистика? Где вероятность отказа? Где границы применимости? При этом агентам уже доверяют конфиденциальные данные и оперативные решения – на основании вывода уровня «вроде работает». 😱 А как же узнать, с какой вероятностью и в каких условиях агент удалит вашу базу данных или положит сервер? Или, например, какова вероятность успешного заключения сделки через агента-тогового представителя? В статье "Discovering and Learning Probabilistic Models of Black-Box AI Capabilities" предлагают очевидный, но редкий подход: оценивать агентов не по разовым результатам, а через статистическую модель вероятности выполнения операции в зависимости от состояния и эффектов действий. 🚀 Агент рассматривается как чёрный ящик, а оценка его возможностей строится через наблюдение за тем, как он действует в среде и какие эффекты это даёт. Авторы вводят две модели – оптимистическую и пессимистическую, которые задают верхнюю и нижнюю границы возможного распределения вероятностей успеха операций при разных исходных условиях. ➡️ Там, где эти границы сходятся, вероятность выполнения операции считается определённой. ➡️ Для операций, где модели не сходятся, строится дерево Монте-Карло, которое используется для генерации новых тестовых сценариев, сбора статистики и последовательного уточнения моделей до их сходимости. Формально это делается в постановке, близкой к марковскому процессу принятия решений (MDP). ❗️В результате получается полное вероятностное описание возможностей агента в каждом состоянии. Имея такую модель, можно говорить не о «средней температуре по больнице» (например, средней вероятности корректного вызова tools), а о том, что данную конкретную задачу в данном состоянии агент выполнит с вероятностью X%. =============== И всё это с возможностью оценить любую  LLM  в качестве контроллера! =============== Практически "угадай мелодию" по агентски: – я выполню эту задачу с вероятностью 80%, – а я выполню с вероятностью 85%. – Выполняй! 💟

Другие посты @nado_razobratsya_ai