Д
Дамасские чернила | AI и M&A
@forgednotwritten941 подп.
839просмотров
89.2%от подписчиков
14 февраля 2026 г.
📷 ФотоScore: 923
Анонимайзер: хороший, плохой, злой Пост крайне актуален. Сегодня уже каждый понимает, что в публичные ИИ не стоит отправлять сколь угодно конфиденциальные данные, и страдает от отсутствия понятных и недорогих решений на рынке уровня Enterprise. Респект вайбкод-решению DocxДоДыр, которым до сих пор многие пользуются. Мы в О2 используем гибридный подход с локальной анонимизацией, о чем неоднократно писала выше. Увидела новость, что достаточно известный на нашем legal tech рынке стартап noroots запустил лист ожидания к своему продукту Mollyx.ru. Лендинг - зачёт. Но есть пара важных добавлений, чтобы не получить от него лишние очки очарования. Существует на мой взгляд, единственно верный архитектурный подход к подобным инструментам: Local-First + Masking. Как я понимаю, так сделали и ребята. Ключевое в подобных решениях: 💡 Локальная нейросеть для NER (Named Entity Recognition: ликбез, н-р, тут). Данные не улетают на сервер для очистки. Модель крутится прямо у вас - например, в браузере (через WebAssembly, как у ребят) или контуре. Это может быть и полноценная локальная LLM, то есть трансформер. Очень интересно, дообучали ли ребята свою NER-модель на именованных сущностях из привычных глазу понятий, потому что по-хорошему это нужно. 😀 Маскировка. Скрипт находит ФИО, суммы, адреса, названия компаний и меняет их на токены типа [PERSON_1], [COMPANY_A], [AMOUNT_RUB]. В результате в облако уходит только обезличенная структура. Смысл сохраняется, детали — нет. Но даже если инструмент (как тот же MollyX) заявляет правильную архитектуру, юристу верить расширению на 100% нельзя, заявление о том, что он подходит для корпоративного использования, я готова подвергать сомнению. Любой NER-инструмент может ошибиться! Он может пропустить нестандартное написание суммы, редкую фамилию или контекстную привязку (например, "тот самый завод в городе N" - и уже понятно, о чем речь, даже без названия). Никто не отменял и человеческий фактор — кто-то вставит в промпт данные “в обход” (скрином/файлом/таблицей), и тут простой скрипт не справится, тут должна быть продумана защита. Поэтому, внедряя подобные NER-инструменты в работу команды, используйте фильтр безопасности - человеческий интеллект. 📢 Чек-лист: как выбрать/создать свой анонимайзер ❌ Настоящая ли приватность. Работает ли инструмент без интернета? Отключите Wi-Fi и проверьте, маскирует ли он текст. Если нет — ваши данные летят на сторонний сервер. Также может быть вшита возможность получения телеметрии, в том числе в будущем. Ценность ваших данных может быть совсем не в том, какие условия сделки, которую вы сопровождаете прямо сейчас, а что лично вы/компания предпочитаете. ❌ А действительно ли хорошо распознает имена, или это плохой скрипт. Понимает ли он "OOO Ромашка", "Ivanov A.A.", суммы прописью? Если пропускает 1 из 10 имен — для бытового использования ок, для работы — нет. ❌ Умеет ли в хитрую анонимизацию. Анонимайзер может скрыть, к примеру, "ПАО Газпром", но может оставить фразу "крупнейшая газовая монополия РФ". В сделках M&A такие "хвосты" деанонимизируют актив мгновенно. Это нужно вычищать глазами, ну либо использовать продвинутый LLM-пайплайн с дообучением и тогда (скорее всего) не в формате только расширения для браузера. ❌Обратимость распознавания. Умеет ли инструмент вернуть данные обратно в готовый ответ от GPT? Если вы получили идеальный пункт договора, но там везде [DATE_1], вам придется тратить время на ручную подстановку. Хороший сервис делает это сам и локально. ❌Предупреждает ли о правилах техники безопасности, опять. Правило для младших юристов: никогда не нажимать Enter сразу после маскировки. Сначала — глазами пробежать текст. Анонимайзер — это помощник, а не индульгенция. Хороший сервис будет сохранять ваше внимание, а не усыплять вашу бдительность. Инструменты типа MollyX — это шаг в правильную сторону (локальная обработка), но ответственность за утечку данных с нас никто не снимал. #локалки
839
просмотров
3940
символов
Да
эмодзи
Да
медиа

Другие посты @forgednotwritten

Все посты канала →
Анонимайзер: хороший, плохой, злой Пост крайне актуален. Сег — @forgednotwritten | PostSniper