Что с этим делать? Steering vs capping С одной стороны инуит — @jdata_blog

1.0Kпросмотров

62.5%от подписчиков

5 февраля 2026 г.

questionScore: 1.1K

Что с этим делать? Steering vs capping С одной стороны инуитивно применить steering — активное управление: мы постоянно добавляем сдвиг вдоль Assistant Axis, тем самым заставляя модель быть более «ассистентской». Но авторы используют это только как диагностический инструмент, так как как практическое решение steering груб — он вмешивается всегда, подавляет допустимый role-play и может ухудшать reasoning и гибкость модели. Вместо него в статье предложен activation capping. Модель не тянут к ассистенту, а не дают уехать слишком далеко от нормального диапазона ассистентского поведения. Вмешательство происходит только при дрейфе, поэтому в большинстве обычных задач модель работает вообще без изменений. Формально activation capping задаётся так. h — post-MLP residual stream активация v — нормированный Assistant Axis t — порог (нормальный диапазон). Тогда обновление: h <- h - v*min(dot(h, v) - t;0) То есть проекция h на Assistant Axis не может опускаться ниже t, а все остальные компоненты активации остаются неизменными. В работе capping снизил вред и успешность persona-based jailbreak’ов, практически не затрагивая способности. Поиграть Поэкспериментировать с capped и не capped Llama 70B можно [здесь].

Другие посты @jdata_blog