D
Data Blog
@jdata_blog1.6K подп.
1.1Kпросмотров
65.6%от подписчиков
21 февраля 2026 г.
Score: 1.2K
Короче говоря, формула тишины канала — это rebuttal + магистратура + работа + тот момент, когда выходишь из дома. Но прикольного всё же есть, чем поделиться — привезли SAE для диффузионных моделей (paper DLM-Scope: Mechanistic interpretability of DLMs via SAE). Почему интересная работа — по постановке SAE в DLM нельзя обучать также, как в autoregressive моделях. Так как модель постепенно «восстанавливает» input за несколько шагов денойзинга, снять активации и минимизировать MSE в лоб, как это делается в autoregressive моделях, нельзя. В работе авторы: 1. Отдельно формализуют, какие активации вообще имеет смысл использовать для обучения SAE. 2. Проверяют осмысленность SAE — активации слоя заменяются реконструкцией, и измеряется, как меняется диффузионная функция потерь. То есть пытаются ответить на вопрос «сохранили ли мы поведение модели?». Интересный момент, который они показывают: в некоторых экспериментах вставка SAE в ранних слоях может даже снижать диффузионный loss. Это отличается от типичных наблюдений — вставка SAE обычно ведет к reconstruciton loss и бреду на выходе. 3. Вводят steering через несколько шагов денойзинга. На двух стратегиях — вмешиваться во все токены или только в те, которые сейчас обновляются. Таким образом steering становится процессом, распределённым во времени, а не одноразовым сдвигом в пространстве активаций — что ещё одно большое отличие. И вдогонку — немного эксперементируеют с анализом динамики денойзинга через SAE и смотрят перенос между base и instruction-tuned моделью (тут есть сохранение и перенос — и это уже сходство с обычной постановкой). Сами SAE выложены (для моделей Dream-7B, LLaDA-8B).
1.1K
просмотров
1685
символов
Нет
эмодзи
Нет
медиа

Другие посты @jdata_blog

Все посты канала →
Короче говоря, формула тишины канала — это rebuttal + м — @jdata_blog | PostSniper