593просмотров
49.4%от подписчиков
4 марта 2026 г.
stats📷 ФотоScore: 652
Всем привет! Собрал 5 ошибок, которые вижу снова и снова, когда команды запускают ИИ систему, прогоняют пару тестов и считают задачу закрытой. А потом на проде все ломается в самый неудобный момент. Первая ошибка - это бенчмарки вместо оценки на своих задачах. Результат на MMLU бенчмарке ничего не скажет о том, как система работает именно у вас. 85% скор на бенчмарке звучит красиво, но это пустая цифра, если ваш AI делает саммари юридических договоров. Вторая - это когда измеряют точность, но игнорируют устойчивость. 95% точности ИИ системы выглядит отлично ровно до момента, пока реальные пользователи не начинают формулировать запросы чуть иначе. Небольшие вариации промпта могут полностью сломать систему. Третья - это отсутствие baseline. Если до деплоя не зафиксировать, как выглядит хороший результат, вы просто не поймёте потом, стала версия 2 лучше или хуже версии 1. Четвертая ошибка - это тестирование только happy path. Ожидаемые сценарии это минимум, который должны быть по умолчанию. AI-системы реально ломаются на крайних случаях и неожиданном поведении пользователей. Пятая - это когда evaluation живет только у разработчиков. Разработчики знают, как система устроена, а QA знает, как она ломается. Без QA в процессе оценки вы упускаете самый важный угол зрения. Всё это решаемо, но только если вы понимаете, что проблема вообще есть. Полезная информация: Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)