341просмотров
70.9%от подписчиков
30 января 2026 г.
Score: 375
Инструмент недели. DeepEval 📊 Алиса: Как понять, что модели работают хорошо?
Боб: DeepEval.
Алиса: В смысле?
Боб: В коромысле. DeepEval - фреймворк для оценки качества LLM, RAG-систем и AI-агентов. Это unit-тесты, но для LLM. Алиса: Ладно. А что делает этот DeepEval? 🤔
Боб: Делает то, что ты должна была делать сама, но не умеешь.
Проверяет LLM нормально:
🎯 отвечает ли модель по делу (Relevance);
✅ правильный ли ответ (Correctness);
📚 использует ли она контекст, а не фантазирует (Faithfulness);
🧠 не ловит ли галлюцинации. Алиса: И я должна это всё вручную проверять?
Боб: Конечно нет. Мы же не в 2022. LLM проверяет LLM. Автоматически. Алиса: А если я поменяла промпт?
Боб: Тогда без тестов ты просто сломала прод и надеешься, что никто не заметит. DeepEval хотя бы скажет, где именно ты накосячила. Алиса: Чего?
Боб: DeepEval - это разница между «ну вроде чет там работает» и «мы знаем, что работает» 📊 Алиса: Окей, убедил. Пошла разберусь с этим. Всё
😍