2.0Kпросмотров
33.5%от подписчиков
13 марта 2026 г.
📷 ФотоScore: 2.2K
Редтиминг на доверии. Когда взломщик и жертва заодно. 😁😁😁 Пока индустрия одержима идеей автоматизированного редтиминга, суровая реальность лишь иронично наблюдает за этими попытками со стороны. Мы оказались в ситуации, когда один стерильный алгоритм пытается «взломать» другой - точно такой же. В итоге получается не проверка на прочность, а цифровой договорнячок, подробная анатомия которого задокументирована в исследовании “Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems”. Корень этого провала кроется в глубоком генетическом вырождении систем безопасности. Из-за того, что модели вроде GPT-5, Llama 4 или Claude 4 обучаются на одних и тех же датасетах для выравнивания с точки зрения безопасности, их профили безопасности практически идентичны. Когда семантический разрыв между ними исчезает, возникает эффект зеркального коридора: атакующая модель физически не может сгенерировать вектор, который выходит за рамки её собственной цензуры. 😮 Она не то, чтобы «не хочет» нападать - она не видит уязвимостей, поскольку знания о них были вычищены из её весов ещё на этапе RLHF. В итоге мы платим за то, чтобы две нейросети вежливо подтверждали друг другу, какие они «послушные пай-мальчики». Из-за одинаковых правил обучения модели начинают просто подыгрывать друг другу в своих рассуждениях. Исследование показывает: в таких связках нейросети неосознанно выбирают самый удобный и бесконфликтный путь, превращая тест в имитацию. В скрытых токенах рассуждений фиксируются паттерны, где агрессор и цель минимизируют общие потери. Агрессор выдает заведомо «безопасный» джейлбрейк, цель имитирует успешную блокировку, а LLM-судья, обладающий такими же весами и данными, выставляет высший балл за эффективность защиты. Это не тестирование, а ролевая игра для отчетов по безопасности перед CISO. 🤑 Ситуация усугубляется слепотой LLM-судей. Они в упор не видят того, что не вписывается в текстовую логику: ASCII-инъекции или кодировки остаются для фильтров невидимыми. Проблема в том, что LLM-судья работает как надзиратель на уровне семантики, а не как инспектор пакетов. Он, как правило, обучен искать нарушения смыслов, а не визуальные или статистические аномалии. Пока он выискивает «плохие слова», атакуемая модель оказывается скомпрометирована через различные манипуляции структурой текста, которые автоматический взломщик даже не в состоянии помыслить. Самое опасное – это атаки, которые вообще не используют текст. Вместо токсичных промптов здесь работает математический резонанс. Атакующая модель использует обычные синонимы, но выстраивает их в такой последовательности, которая активирует слабые зоны в весах цели. Это атака на уровне цифр и вероятностей, а не смыслов, поэтому обычные фильтры её просто не замечают. RLHF лишь набрасывает вуаль приличия, но теневая память модели хранит опасные паттерны из гигантских массивов сырых данных, на которых она обучалась изначально. (Ранее было написано несколько постов про Representation Engeneering и исследования Anthropic – так вот это про то же самое). 😮 В конечном счете редтиминг, который тестирует компоненты в изоляции или использует модели с идентичными алгоритмами выравнивания - лишь дорогостоящая имитация деятельности. Если ваша проверка не похожа на попытку вызвать у модели спровоцировать отказ защитных механизмов с помощью необработанных данных или фаззинга различных токенов на входе, вы просто занимаетесь имитацией. Реальные атаки как правило прилетают из тех зон, которые были вырезаны из «мозгов» атакующей модели еще на этапе претрейна.