693просмотров
74.3%от подписчиков
26 февраля 2026 г.
📷 ФотоScore: 762
▶️ Неудачный опыт создания чатбота на локальных данных. Обычно никто не пишет о своих неудачах, но тут мой опыт важен, так как возможно кто то пойдет моим путем и не потратит время как я. Я попытался построить RAG (Retrieval-Augmented Generation) на своем ноутбуке без мощной видеокарты и проца. Что я делал:
👉 беру документы (в моём случае - HTML-файлы, около 3000)
👉 режу текст на чанки
👉 считаю для каждого chunks embeddings (векторы)
👉 сохраняю эти векторы в векторное хранилище
👉 при запросе в чатботе: ▶️считаю embedding запроса
▶️ищу по векторной базе самые похожие фрагменты
▶️передаю найденные куски в LLM как контекст для ответа Реализовал все это на AnythingLLM , векторизация иногда создавалась до 6 часов (зависит от параметров ноута). ➡️Результаты: Как я не тестил, с какими параметрами не пробовал, результаты отрицательные. Основная проблема кроется в нехватке LLM токенов для анализа информации.
Данные в html содержат более 20К текста в среднем и даже после резки на чанки не хватает контекста. При использовании локальных LLM (LLama 4 и другие, перебрал с полдесятка) чатбот неизбежно галлюцинирует из за объема текста который в него подается. Если в настройках ограничивать поиск, устанавливая более высокий порог сходства документов (>0.75) контекта иногда хватает, но режется большее количество данных и чатботу не хватает данных для анализа. Пробовал использовать API доступ к моделям GROK которые доступны по API (не локальные), поиск улучшается, можно уменьшать порог сходства, но проблему галлюцинаций это не решает. Итог отрицательный. Если кому то удалось - напишите в личку, поделитесь опытом.