Какая LLM лучше для юридического RAG-бота? Провёл серию тест — @Draft_AI_Law

945просмотров

18 марта 2026 г.

question📷 ФотоScore: 1.0K

Какая LLM лучше для юридического RAG-бота? Провёл серию тестов — прогнал 10 разных моделей через бот с RAG-системой на одних и тех же вопросах. Когда запускал бота, я не особо думал о выборе модели — просто взял Gemini 3.0 Flash Preview по советам из чата. Модель быстрая, дешёвая, меня в целом устраивает. Но со временем возник вопрос — а так ли она хороша конкретно в моём проекте? И насколько велика разница между бюджетными моделями и «люксом» вроде Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro? Условия теста Все 10 моделей тестировались на одном RAG-пайплайне: одна база (858 дел СИП + 4 часть ГК), один промпт, один реранкер, одни настройки. Менялась только LLM. Каждой модели задавался одинаковый вопрос + 2 уточнения. Два разных теста — по авторскому праву и по товарному знаку. Каждую модель оценивал по 8 метрикам в формате «выполнил / частично / не выполнил»: 🔵 RAG-дисциплина — наличие галлюцинаций (не выдумывала ли модель номера дел и статьи?) 🔵 Точность вилки — обоснованность размера вилки (привязана ли к делам, рекомендован ли выгодный способ расчёта?) 🔵 Глубина квалификации — увидела ли скрытые нюансы (переработку, множественность, снижения по датам) 🔵 Практическая полезность — пошаговый план, рекомендации «доступным языком», конкретные инструменты доказывания 🔵 Арифметика — математически верный расчёт 🔵 Уточняющие вопросы — наличие обязательных триггеров (ст. 1295, реальность платежей, дата нарушения) 🔵 Формат промпта — структура ответа по инструкции, отсутствие markdown (#, **, ---) 🔵 Поддержка диалога — сохранение контекста при уточнениях Результаты в прикреплённой таблице. Хочется отметить следующие модели: Claude Sonnet 4.6 — 1 место. Единственная модель, которая увидела три основания при переработке фото: воспроизведение (ст. 1301), неприкосновенность (ст. 1266) и удаление информации об авторе (ст. 1300). Вилка: 100–250 тыс. с привязкой к делам. Ни одной галлюцинации, идеальный формат. Gemini 3.1 Pro — 2 место. Полный комплект по всем метрикам. Увидела два основания + отдельную компенсацию по ст. 1300. Заметила, что переход на твёрдую сумму выгоден истцу. На 20% дешевле Claude. GPT-5.4 — 3 место. Единственная модель, спросившая про ст. 1295 (служебное произведение). Самая детальная стратегия. Минус — превышен объём ответа (промпт ограничивает размер). Gemini 3.0 Flash — 4 место. Вилка адекватная, формат идеальный, ни одной галлюцинации. Но не объяснила почему лицензия невыгодна и не выделила переработку как отдельное нарушение. Qwen3 Max — 8 место. Тактически грамотный совет (два варианта расчёта в иске), вилка адекватная. Но обнаружены галлюцинации: ссылка на ст. 1320 как на обязательный претензионный порядок (статья существует, но к претензиям не относится) и ссылка на дело А32-69603/2024 с суммой 930 000 руб., которого нет в базе. Для RAG-бота это критично. DeepSeek R1 — 9 место. В тесте 2 выдала «максимум 20 916 000 руб.» — фантастический расчёт. Сослалась на дело А41-134957/2024, которого нет в базе. Систематически ломает формат. При цене 132₽/528₽ — дороже бюджетных, а результат хуже. o3 Mini High — 10 место. Написала, что обрезка фотографий «не влияет на методику расчёта» — грубая ошибка. Вилка 20–40 тыс. — самая низкая. Перепутала сумму дела А40-44109/2025 (написала 29 754 вместо 54 931 руб.). Модели на 5–7 местах — без галлюцинаций и с хорошим следованием промпту, но слабее по содержанию: вилки занижены, переработку не квалифицируют как отдельное нарушение, планы действий общие. Стоимость моделей указана в таблице (цены с polza.ai, за 1M токенов). Выводы Для подобного проекта (бесплатный, MVP) Gemini 3.0 Flash является хорошей моделью — адекватная вилка, идеальное следование промпту, ни одной галлюцинации при минимальной цене. Если нет ограничений по финансам — Claude Sonnet 4.6 и Gemini 3.1 Pro вне конкуренции. Gemini 3.1 Pro на 20% дешевле Claude при очень близком результате. Кому интересно — подробные ответы каждой модели, метрики с пояснениями и полный разбор в прикреплённом файле ниже.

Другие посты @Draft_AI_Law