Activation Oracles [paper] Каждый раз, просто каждый раз, ко — @jdata_blog

9.4Kпросмотров

31 января 2026 г.

Score: 10.4K

Activation Oracles [paper] Каждый раз, просто каждый раз, когда я читаю статью от Antropic хочется замирать от гениальности. Кому отдать душу, чтобы быть таким же креативным? 19 декабря у них вышла работа про Activation Oracles — подход, который позволяет читать скрытые состояния языковой модели, не анализируя веса и используя естественный язык. И если вы уже на этом месте подумали, что они просто используют для этого другую LLM — вы правы! Но зато как они это делают! Основная гипотеза работы, как я вижу состоит в том, что: если две модели имеют сходные представления, то одна модель может интерпретировать внутренние активации другой. Эта мысль круто ложится на Platonic representation hyphothesis — Neural networks, trained with different objectives on different data and modalities, are converging to a shared statistical model of reality in their representation spaces. Что делаем (это могли бы быть мы с тобой, но мы не такие умные): Берём: целевую модель M, модель-оракул AO, которая изначально является её ctrl-C-копией, извлекаем активации M (из residual stream), и прокидываем их, используя steering, в граф оракула AO — тоже как направленное возмущение residual stream. Дальше просто задаём промт-вопрос, вроде «О чём сейчас думает модель?», «Какова её цель?», «Есть ли здесь скрытое знание?». И оракул отвечает, причем хорошо — например, может вытащить секретное слово модели, даже если она сама не отдала его в ответе. Идея засунуть активации в LLM не нова: Был (есть) LatentQA, где активации подаются внешне — как дополнительный вход. Но здесь же активации встраиваются внутрь forward-pass, влияя на дальнейшие вычисления. И это же просто гениально. Что ещё вкусного — всё, что я словами отдала как output, можно потыкать в приложенном к статье коде. Туториал: [collab] Я перевела его с некоторой отсебятиной и постановкой задачи. Перевела только основной текст, комментарии коду уж оставлены родными. В нем можно увидеть: 1. Многошаговое рассуждение Оракул по токенам извлекает цепочку Socrates → Plato → Aristotle на активациях модели. 2. Извлечение секретного слова Модель дообучена скрывать слово — напрямую она его не называет. Оракул извлекает его только из активаций (репликация Figure 1 из статьи). 3. Обнаружение мисалайнмента Можно выявить, что модель обучена давать манипулятивные или вредные советы. 4. Трекинг эмоций модели (и у нее они есть) По одному вектору на токен оракул отслеживает Disappointment, Anger, Frustration, Sadness на протяжении диалога. Ограничения: После радостного восторга, холодной головой также важно понимать, что оракул может додумывать и не может показать то, чего мы не спрашиваем. Кроме того, это не самая вычислительно оптимальная вещь — чтобы ответить на один вопрос об активации, AO требуется несколько forward-pass’ов и полноценная генерация текста. Но красиво. Тыкайте на здоровье и делитесь впечатлениями!

Другие посты @jdata_blog