628просмотров
52.3%от подписчиков
25 февраля 2026 г.
📷 ФотоScore: 691
Всем привет! Есть термины, которые часто могут быть синонимами, но на самом деле отражают разные способы мышления, и такими терминами является тестирование и оценка в контексте ИИ систем. В ИИ сообществе на самом деле уже давно устоялся термин “оценка” и не просто так, а потому что за этим этим стоит важное различие в подходах. В чем именно? Классическое тестирование детерминировано, то есть если вы запустили функцию с одними и теми же параметрами сто раз, то получите сто одинаковых фактических результатов. ИИ системы (особенно когда мы говорим о генеративных моделях) работают принципиально иначе, а именно один и тот же промпт может дать разные ответы, и при этом, несколько разных ответов могут быть одинаково хорошими, просто по-разному сформулированными. Как тут писать тесты в привычном понимании? Ответ - никак, поэтому мы оцениваем, а не тестируем. Мы используем метрики, которые показывают качество на шкале, сравниваем версии моделей между собой, смотрим на распределения результатов на большом датасете, а не на единичные результаты. Отсюда и разный инструментарий, который мы используем. В классическом тестировании у нас тест кейсы, фактический и ожидаемый результат, а в ИИ оценки метрики типа Answer Reelvancy, Hallucination Rate, Task Completeness и так далее, и явного одного ожидаемого результата нет. Кроме того, это важно и для поиска информации, потому что если будете искать информацию по "AI testing", найдете в основном материалы про использование AI в тестировании программ. Но чтобы получить информацию именно по оценки ИИ систем надо искать по ключевым словам "AI evaluation" или "LLM evaluation" и тогда попадете туда, куда действительно нужно. Полезная информация: Курс по evaluation AI | Мой фреймворк для оценки AI | С чего начать изучение AI | Инструменты для оценки AI | Инструменты для оценки AI (ч.2)
628
просмотров
1849
символов
Нет
эмодзи
Да
медиа

Другие посты @testingofai

Все посты канала →
Всем привет! Есть термины, которые часто могут быть синонима — @testingofai | PostSniper