Давно ничего не писал, потому что был завал на релизах и в л — @gde_value

789просмотров

54.6%от подписчиков

7 октября 2025 г.

Score: 868

Давно ничего не писал, потому что был завал на релизах и в личку сыпалась куча вопросов, исправляюсь) В LinkedIn после публикации кейса про БЗ с ЛЛМкой спрашивали, какие метрики мы используем для того, чтобы убедиться, что внедряемое ИИ-решение соответствует ожидаемым результатам, решил написать об этом и поделиться метриками, которые использовали на старте и сейчас. Я уже рассказывал, что у моей команды основные силы сейчас сосредоточены на платформе, которая закрыла бы все внутренние задачи сотрудников ВВ, в том числе управление знаниями. Я вообще убеждён, что все, кто работает внутри компаний и как-то связан с knowledge management’ом, будут прикручивать к своим базам RAG-системы, чтобы получить возможность общаться с ними в виде чата. Мы такой проект уже реализовали — сейчас в него постепенно перетекает основная группа пользователей. Чуть позже напишу статью про экономический эффект от внедрения такого инструмента, но спойлер: на масштабе экономит он много. Когда мы описывали итоговый результат, пришли к такому списку метрик. Задача была сделать их максимально понятными для наших оценщиков и информативными для нас. Ещё надеялись, что сможем найти корреляцию между ними и машинными метриками, чтобы привлекать для тестов меньше людей. Для тестов выделили группу, которая прямо в нашем интерфейсе оценивала качество, проставляя звёздочки и оставляя комментарии. В итоге пришли к тому, что всех этих тестирующих потом нужно повторно проверять, потому что сами работающие сотрудники не всегда знают, правильный ли ответ им выдаёт модель. Поменяли флоу и убрали все метрики, кроме оценки «хорошо»/«плохо»: в интерфейсе решили просто выводить лайк и дизлайк под каждым ответом, потом проверять самыми опытными ребятами общую выдачу и собирать эталонные ответы. Сейчас у нас удовлетворённость больше 90%, отрабатываем жалобы на совсем редкие кейсы. Ну и как всегда это бывает, после того как к нам пришло 20+ команд и загрузили свои знания, обрабатывать все вопросы одинаково хорошо через 1 модель не получилось, некоторые команды из-за размеров и особенностей чуть ли не в отдельный продукт сейчас выделяем, об эволюции в области управления знаний у нас тоже расскажу позже, с этим сильно помог Ваня Замесин, когда у нас воркшоп в ВВ проводил :)

Другие посты @gde_value