685просмотров
88.8%от подписчиков
14 ноября 2025 г.
📷 ФотоScore: 754
🔔Разреженность и как это влияет на безопасность агентов Серьезная длинная статья, запаситесь кофе☀️ Вчера увидела статью о том, что коллеги из крупного банка провели исследование об усовершенствовании методов разреженности (sparsity) и многоуровневой активации. Идея: вместо того чтобы нейронная сеть использовала все свои "нейроны" для каждого решения, она учится активировать только определенные, релевантные пути. Причем эти пути организованы иерархически: от общих, высокоуровневых признаков к более специфическим, низкоуровневым.
Аналогия: представьте, что вы определяете животное. Сначала активируется общий путь "млекопитающее", затем "кошачьи", затем "тигр". Метод, вероятно, позволяет "заглянуть" на любой уровень этой иерархии и увидеть, какие признаки (нейроны) были задействованы для принятия решения "млекопитающее", а какие — для "тигр". 🔵Я и задумалась: а насколько это вообще безопасно? Сам по себе метод интерпретации не делает модель устойчивой к атакам. Более того, он может открыть новые векторы для атак. · Безопасность модели и интерпретируемость — это две разные, хотя и связанные, задачи.
· Знание того, как модель работает, не означает, что она работает надежно. Это знание можно использовать как для защиты, так и для нападения. Если метод действительно работает так, как заявлено, это серьезный шаг вперед в практичности интерпретируемости. Обучение одной универсальной модели вместо кучи маленьких — это большая экономия вычислительных ресурсов и упрощение пайплайна. Это делает сложную интерпретацию более доступной для бизнеса. Почему это не панацея: 1. Интерпретируемость != Надежность. Как я выяснила, это не решает проблему adversarial-атак. 2. Объяснение != Понимание. Мы можем видеть, какие нейроны "загорелись", но все еще не до конца понимаем, почему они сработали именно так и какую именно концепцию они кодируют. Это фундаментальная проблема XAI. 3. Новый метод - новые уязвимости. Любая сложная система, особенно с прозрачным внутренним устройством, может иметь свои уникальные точки отказа. Полезный и практичный инструмент, который облегчит аудит и отладку моделей в продакшене. Однако это не делает модели "безопасными" по умолчанию. Это инструмент, который: 🛡Для защитника: поможет быстрее находить ошибки и предвзятости.
🎩Для атакующего: может предоставить карту внутренностей модели для создания более целенаправленных атак. В следующем посте, попробую представить вам атаки, которые сработают 🤝