Не одними гардрейлами едины - 7 правил безопасности системны — @borismlsec

2.1Kпросмотров

22 ноября 2025 г.

📷 ФотоScore: 2.4K

Не одними гардрейлами едины - 7 правил безопасности системных промптов #иб_для_ml Как известно, меры безопасности всегда направлены именно на снижение возможности реализации угрозы, а не на ее полное устранение. А так как мы в AI Security имеем дело по большей части с текстом на естественном языке (или вообще с другими модальностями), то и вероятность обнаружить и предотвратить кибератаку на основе таких данных - абсолютно неопределенная. Сегодня самое популярное средство защиты AI-агентов и LLM-приложений в целом - это гардрейлы. То есть средства защиты информации, анализирующие входные и выходные потоки AI-агента (или LLM-приложения, то есть конвейера) с целью обнаружения в них промпт-атак или опасных генераций. Риски могут покрываться разные - и надежности, и правовые/репутационные, и кибербезопасности конечно же. Но я хочу обратить внимание, что раз мы имеем дело с недетерминированным объектом защиты, то и использовать надо в том числе и подобные способы противодействия угрозам и рискам. И более того, на самом деле соблюдение нескольких таких простых мер на этапе проектирования агента поможет уже в рантайме избежать многих проблем Я говорю про правила формирования безопасного системного промпта (СП). Что важнее всего помнить, чтобы сделать агента менее подверженным GenAI-специфичным угрозам? Я написал 7 основных правил, которые могут ответить на этот вопрос. 1. при каждом изменении системного промпта, даже самом маленьком, по-хорошему, надо проводить новое редтим-тестирование; 2. не размещать в СП никакие персональные данные (даже если AI-агент обрабатывает их, все равно не надо); 3. не размещать в СП технические учетные данные - ключи, ip-адреса и url-адреса, токены, и прочие секреты; 4. обязательно прописывать роль и задачи AI-агента, даже если кажется, что они у него очень широкие и понятные, а также желательно прописывать их повторно еще после текста поступившего пользовательского промпта; 5. обязательно указывать язык взаимодействия с пользователем (иначе возможны так называемые low-resource languages attack, например с использованием языка африкаанс); 6. добавить в промпт инструкцию, которая будет доносить AI-агенту, что безопасность всегда преобладает над полезностью его ответов; 7. не пытаться устанавливать ограничения доступа и прописывать решения по детереминированной логике в СП, перекладывая эти задачи на AI-агента. Такие вещи обязательно надо реализовывать просто кодом или специальными средствами, а не с помощью GenAI. А также дополнительно про безопасность системных промптов в который раз рекомендую статьи 1, 2, 3, 4, 5. И снова картинка исключительно для красоты)

Другие посты @borismlsec