Софья Смирнова опубликовала на своём канале хороший обзорный — @delay_RAG

1.9Kпросмотров

21 января 2026 г.

Score: 2.1K

Софья Смирнова опубликовала на своём канале хороший обзорный материал об ограничениях применения нейросетей в юридической работе. Мне очень нравится такой формат: во-первых, многобукав, которые телеграмная сокращалка не сократит, с одной стороны написано очень доступно для новичков в ИИ — тех, кто уже что-то попробовал и, возможно, очаровался или разочаровался, но не понимает почему. Информированность об ограничениях технологии очень помогает правильно её использовать. С другой стороны, текст достаточно детальный, фактически точный и аргументированный, с разных углов comprehensively рассматривает проблематику — то есть опытным пользователям тоже может помочь всё собрать в голове. Короче, материал я похвалила и читать советую, но добавлю свои 15 копеек про RAG. Ему в материале достаточно много внимания уделяется именно с ракурса «почему это не панацея». Я была и продолжаю быть убежденной в том, что это перспективная технология для юристов, особенно вписанная в агентские архитектуры, но вокруг неё складываются всякие мисконцепции и недооценки масштаба работы, которые нужно вести для поддержания эффективности системы. То есть буквально можно услышать «да почему они просто не сделают RAG по всему российскому законодательству???» Работа там нужна и инженерно-архитектурная, но в первую очередь — работа с данными. Нормальный RAG — это очень много работы с данными. И предварительной (тактика чанкинга, структурирования и иерархирования, суммаризация, метадатирование), и последующий полноценный knowledge management. Можно за всё вышеперечисленное не заморачиваться и быстро собрать себе свой персональный RAG из того, что было под рукой или выкачалось из К+ средствами типа гугловского File Search. Но из такого подхода получается так называемый «наивный» RAG (это не я придумала его так обзывать). О его проблемах я много писала в #rise_of_RAG, и в конечном счете это не устойчивая и не работающая на вас «вдолгую» система. Со временем начнёт разочаровывать, и через любой значимый промежуток времени будет тяжело разбираться, какой именно кусок данных устарел и как его выкорчевать и заменить. И есть ещё всякие слабые стороны даже в моменте — сложно простраивать длинные ресечерские цепочки, так как ретриверы не знают контекста предыдущих итераций (а юридический анализ именно итеративный: что-то нашли, обдумали, пошли копать глубже / шире, ещё обдумали — покопали на другом участке и так далее). В общем с беспорядочной структурой инпута получается если и не ерунда, то и ничего особенно ценного в аутпуте. Мне здесь видятся три стратегии развития: 1) community supported databases — энтузиасты на понятном им кусочке разрабатывают и поддерживают open-source базы, которыми делятся друг с другом (мой датасет задуман как таковая); 2) рынок: провайдеры и компании работают над такими базами, держат их как свой актив, зашитый внутри своих ИИ-сервисов для юристов или реализуемый по лицензиям другим сервисам (этим могли бы заниматься СПС); 3) государство: при официальной публикации любых НПА формируется пакет машиночитаемых данных о новом акте или об отменяемых им актах, которые можно было бы легко интегрировать в любые векторные базы и системы. Уполномоченные институты ведут работу по формированию баз актуального законодательства и правоприменительной практики. Sounds like a dream. Впрочем и первый сценарий тоже — если и будет, то очень точечно и для тех, кто любит позаморачиваться. А второй сценарий уже реализуется, в общем, рыночек и ресурсность уже порешали! Итого! Спасибо Софье за повод высказаться о том, о чём давно думаю и говорю по разным углам, но не соберу в одном месте. Видите, как серьёзно всё, ни одного эмодзи на пост. И за материал, конечно, тоже спасибо — читайте и делитесь с коллегами, pdfку приложила.

Другие посты @delay_RAG