Безопасность LoRA-адаптеров #иб_для_ml LoRA (2021) - техноло — @borismlsec

2.6Kпросмотров

4 марта 2026 г.

📷 ФотоScore: 2.9K

Безопасность LoRA-адаптеров #иб_для_ml LoRA (2021) - технология дообучения GenAI-моделей (из семейства PEFT), при которой изменения хранятся в виде отдельного подключаемого адаптера (матрицы весов) при фиксированных базовых весах. Хоть самая идея отчуждаемых весов появилась раньше (2019), но именно с появлением LoRA она распространилась. Сила этой технологии в масштабируемости для разрозненных команд. Когда одна команда отвечает за сервисы базовых моделей, и множество команд придумывает свои приложения или агентов, возникает задача потоковым образом предоставлять специфично дообученные модели под разные задачи бизнеса. И здесь как раз себя показывает LoRA. Продуктовая команда собирает датасет, и грузит свои размеченные данные для дообучения. Для выбранной базовой модели создается LoRA-адаптер. На выходе для пользователя видно только новое название в поле "модель", дающее доступ к результату дообучения. Это работает, так как с технической стороны, LoRA позволяет для одной отдельно взятой LLM в проде быстро менять адаптеры, как перчатки, в зависимости от поступающих запросов. И с ростом такого "конвейера" LoRA-адаптеров стала появляться новая поверхность атаки, эксплуатирующая особенности подключения кусочков модели к основному файлу весов. 📷Поговорим про топ-3 классов угроз для LoRA 1⃣Отравление данных обучения: вроде бы обычная история отравления, с LoRA приобретает несколько особенных граней. Стандартный способ атаки модифицируется - например, отравляются несколько наборов данных, и, соответственно несколько наборов адаптеров. Это делается для того, чтобы только в комбинации такие адаптеры давали вредоносный эффект бэкдоров. (ссылка) Помимо этого, особенностью также является легкость внедрения поверхностных знаний в модель (ссылка). Так, существует работа, показывающая, что с помощью отравления LoRA можно обучить модель стеганографически сливать небольшие сообщения через ответы. (ссылка) 2⃣ Хирургия весов: самый показательный экзотический вариант - срезание FF-слоя (feedforward): подмена только MLP-компоненты в легитимном адаптере на такую часть отравленного дает почти полный перенос бэкдор-знаний при минимальных изменениях прикладной эффективности. Туда же - техника "сплайсинга": FF берётся из одного адаптера, части матриц внимания (Q/K/V/O) — из другого (матрицы отравленные), внешне получается почти тот же артефакт. (ссылка) 3⃣: Из LoRA тоже могут утекать данные: есть работа, где показано, что по данным обучения адаптеров также можно осуществить восстановления наличия записи в датасете обучения (membership inference - ссылка). 📷Конечно, не забудем и про меры защиты LoRA 🔓 На этапе проектирования и формирования цепочки поставок: единый реестр и управление доступом к адаптерам и их комбинациям, обязательная связь с наборами данных (подпись происхождения), безопасный формат файлов, отслеживание хэшей тензоров для обнаружения “смешивания” тензоров между несколькими адаптерами. 🗃 На этапе обучения: обязательные проверки загружаемых данных (ПДн, секреты и технические учетные данные), оценка признаков отравления данных, "слепая" предобработка для нарушения паттернов потенциальных отравляющих инъекций. 📷 На этапе эксплуатации: на самом деле, базовые меры для AI-агентов сегодня, то есть DLP на ответах, гардрейлы, регулярный red teaming новых адаптеров и их комбинаций. Из необычного можно попробовать реализовать анти-стеганографическую проверку. По реагированию - быстрый отзыв ручки с адаптером при выявлении компрометации данных или самого файла весов адаптера. Но можно сказать, что пока что все это больше пугалки, чем денежные угрозы. Заниматься сейчас безопасностью LoRA есть смысл только в двух случаях: в крупном энтерпрайзе при использовании с чувствительной информацией, и при развитии собственной лаборатории безопасности ИИ. Во втором случае это полезно потому, как, возможно, в будущем появится больше "конструируемых" моделей на лету. И об этом говорят такие работы, LoRAFlow, MixLoRA, S-LoRA.

Другие посты @borismlsec