Инструмент недели. DeepEval 📊 Алиса: Как понять, что модели — @okmlai

341просмотров

70.9%от подписчиков

30 января 2026 г.

Score: 375

Инструмент недели. DeepEval 📊 Алиса: Как понять, что модели работают хорошо? Боб: DeepEval. Алиса: В смысле? Боб: В коромысле. DeepEval - фреймворк для оценки качества LLM, RAG-систем и AI-агентов. Это unit-тесты, но для LLM. Алиса: Ладно. А что делает этот DeepEval? 🤔 Боб: Делает то, что ты должна была делать сама, но не умеешь. Проверяет LLM нормально: 🎯 отвечает ли модель по делу (Relevance); ✅ правильный ли ответ (Correctness); 📚 использует ли она контекст, а не фантазирует (Faithfulness); 🧠 не ловит ли галлюцинации. Алиса: И я должна это всё вручную проверять? Боб: Конечно нет. Мы же не в 2022. LLM проверяет LLM. Автоматически. Алиса: А если я поменяла промпт? Боб: Тогда без тестов ты просто сломала прод и надеешься, что никто не заметит. DeepEval хотя бы скажет, где именно ты накосячила. Алиса: Чего? Боб: DeepEval - это разница между «ну вроде чет там работает» и «мы знаем, что работает» 📊 Алиса: Окей, убедил. Пошла разберусь с этим. Всё 😍

Другие посты @okmlai