ИИ-агенты — насколько они безопасны. Риски и их нивелировани — @inventorus

588просмотров

33.7%от подписчиков

12 марта 2026 г.

📷 ФотоScore: 647

ИИ-агенты — насколько они безопасны. Риски и их нивелирование ИИ-агенты способны заметно упростить жизнь, выполняя рутинные задачи и освобождая ваше время для чего-то по-настоящему важного. Но, как обычно, у этой медали есть и менее блестящая сторона — вопрос безопасности. Месяц назад вышел большой отчёт под названием International AI Safety Report 2026. В числе его авторов более 100 независимых экспертов из 30+ стран и международных организаций, а также исследователи из Anthropic, Google DeepMind, OpenAI, Alibaba и других ИИ-компаний. Главная цель этого труда — синтез научных доказательств о возможностях, а также рисках и методах управления универсального ИИ (включая агентский). Дело в том, что часть из описанных рисков уже вышли из области теоретических изысканий — некоторые уже задокументированы и имеют последствия. Другие же пока под вопросом, однако их реализация может нанести довольно серьёзный ущерб. Для удобства исследователи разделили все ИИ-риски на три основных категории: 1️⃣Злонамеренное использование — когда человек сознательно использует мощности ИИ для незаконных действий. Например, для генерации контента ради преступных целей (скажем, дипфейки со слепком голоса, полюбившиеся телефонным мошенникам). Кибератаки тоже входят в этот список, ведь при помощи ИИ можно найти уязвимости в целевой системе, а также автоматизировать вторжение и закрепление в ней. И не менее опасное — разработка и создание биологического или химического оружия. Проблема настолько острая, что ряд компаний, выпускающих ИИ-модели, в 2025 году снабдили их дополнительными защитными мерами. 2️⃣Сбои и неисправности самого ИИ — здесь уже речь о технических недостатках выдачи. Галлюцинации чат-бота способны убедить человека поставить самому себе неверный медицинский диагноз, что чревато. Или понести потери на фондовых рынках. Тут же сбои агентского ИИ при выдаче ему системных привилегий, а также потеря контроля (эксплуатация лазеек модели при помощи специальных промптов, обходящих ограничения). 3️⃣Системные риски — автоматизация мышления, слишком сильная эмоциональная зависимость от общения с чат-ботами у отдельных категорий людей. Как следствие — практически полное доверие по отношению к выдаче ИИ. Риски значительные, что в социальном плане, что чисто в материальном — вайбкодинг позволяет уже сейчас за пару минут написать зловреда, заточенного под инфраструктуру конкретной компании, и временно остановить её деятельность, нанеся значительный ущерб. В отчёте отдельно указывается, что после 2025 года основным драйвером развития ИИ стали посттренировочные методы — речь о техниках, применяемых после начального обучения конкретной модели (её дообучение под точечные задачи и предоставление ей больших вычислительных ресурсов). Для обеспечения безопасности на этапах разработки и развёртывания ИИ-моделей сейчас активно используют: ⚫️методы, применяемые при непосредственной разработке модели — это помогает сделать системы куда более устойчивыми к возможным злоупотреблениям. Речь идёт про усиленную курацию данных, что помогает модели не реагировать на промпты, призванные сделать что-то незаконное или обойти ограничения, наложенные разработчиками; ⚫️механизмы контроля и мониторинга — именно на активной фазе развёртывания (усиленный человеческий надзор за процессом и фильтрация контента); ⚫️набор инструментов для мониторинга всей экосистемы ИИ уже после полноценного развёртывания — чтобы отслеживать происхождение контента, реакции на промпты и подобное. Сюда же относят и техники, помогающие детектировать материалы, созданные ИИ. С одной стороны, похоже на вечную битву меча и щита. С учётом того, что и меч, и щит создаются в одной и той же кузнице. С другой стороны — исследователи делают акцент на том, что чрезмерное регулирование и контроль ИИ могут поставить под вопрос сам прогресс в этой отрасли. Что перекликается и с законодательным регулированием, о котором мы писали вчера — символично, что и суды, и разработчики моделей пока не хотят откровенно

Другие посты @inventorus