O
OK ML
@okmlai481 подп.
341просмотров
70.9%от подписчиков
30 января 2026 г.
Score: 375
Инструмент недели. DeepEval 📊 Алиса: Как понять, что модели работают хорошо? Боб: DeepEval. Алиса: В смысле? Боб: В коромысле. DeepEval - фреймворк для оценки качества LLM, RAG-систем и AI-агентов. Это unit-тесты, но для LLM. Алиса: Ладно. А что делает этот DeepEval? 🤔 Боб: Делает то, что ты должна была делать сама, но не умеешь. Проверяет LLM нормально: 🎯 отвечает ли модель по делу (Relevance); ✅ правильный ли ответ (Correctness); 📚 использует ли она контекст, а не фантазирует (Faithfulness); 🧠 не ловит ли галлюцинации. Алиса: И я должна это всё вручную проверять? Боб: Конечно нет. Мы же не в 2022. LLM проверяет LLM. Автоматически. Алиса: А если я поменяла промпт? Боб: Тогда без тестов ты просто сломала прод и надеешься, что никто не заметит. DeepEval хотя бы скажет, где именно ты накосячила. Алиса: Чего? Боб: DeepEval - это разница между «ну вроде чет там работает» и «мы знаем, что работает» 📊 Алиса: Окей, убедил. Пошла разберусь с этим. Всё 😍
341
просмотров
969
символов
Да
эмодзи
Нет
медиа

Другие посты @okmlai

Все посты канала →
Инструмент недели. DeepEval 📊 Алиса: Как понять, что модели — @okmlai | PostSniper