Activation Oracles [paper] Каждый раз, просто каждый раз, когда я читаю статью от Antropic хочется замирать от гениальности. Кому отдать душу, чтобы быть таким же креативным? 19 декабря у них вышла работа про Activation Oracles — подход, который позволяет читать скрытые состояния языковой модели, не анализируя веса и используя естественный язык. И если вы уже на этом месте подумали, что они просто используют для этого другую LLM — вы правы! Но зато как они это делают! Основная гипотеза работы, к...
Data Blog
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19Привет, друзья! А вот и наш вчерашний эфир. ☺️ На нём было всё — от конструктивного обсуждения, до случайных вольных художников. Последних пришлось вырезать, ибо свастика, элементы биологии и правописание глаголов в нецензурном контексте — не тема эфира. Зато как было весело в онлайне! Прошлись по всем темам: 1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше. 2. Safety vs Security: почему эти понятия важно чётко разли...
Привет, друзья! Ещё один анонс. 🥷🏻 Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по сути, набор задач по кибербезопасности. Я также очень люблю фильм Who Am I, а за последний год успела немного погрузиться в тему атак на модели. Короче говоря — мини-хакер во мне всегда, похоже, жил) В июне 2024 года я пришла к Жене — СЕО Hi...
Всем отличной рабочей недели! И никакой выдачи желаемого за действительное. 🗿
Привет, друзья! За последний год я писала про SAE 11 раз. А ещё взяла с ними дипломную. SAE-шки — очень практичный и интересный метод. Они позволяют разложить внутренние представления трансформера на разреженные признаки, на которые мы можем посмотреть и которыми мы можем управлять. А ещё мой последний туториал был 4 месяца назад. Так что звезды сложились — и я снова дошла до Хабра со статьей и ноутбуком! В туториале: — что такое SAE и зачем вообще «раздувать» скрытое пространство; — где им...
Быть рисерчерами — быть близко к ассистентам 👌
Вот тебе и замыленный взгляд — бескультурно пропустила классный релиз в конце декабря. DeepMind выпустили Gemma-Scope2, то есть: 1. Выпустили SAE 16/32k, cross-coders и transcoders под модели gemma3-**B (от 270M to 27B) — в общем, для всех. 2. Привезли circuits для всех этих моделей (которые можно посмотреть и поизучать тут) Из примечательного — добавили SAE, cross-coders и transcoders и для instruct моделей (для gemma2 они тоже были, но теперь выбор по размеру модели побольше). В отличие от пер...
Короче говоря, формула тишины канала — это rebuttal + магистратура + работа + тот момент, когда выходишь из дома. Но прикольного всё же есть, чем поделиться — привезли SAE для диффузионных моделей (paper DLM-Scope: Mechanistic interpretability of DLMs via SAE). Почему интересная работа — по постановке SAE в DLM нельзя обучать также, как в autoregressive моделях. Так как модель постепенно «восстанавливает» input за несколько шагов денойзинга, снять активации и минимизировать MSE в лоб, как э...
Начинаем наш новогодний эфир с Сабриной уже через час 🎄. Приходите онлайн, задавайте ваши вопросы, обсудим безопасность и интерпретируемость моделей. Ссылка на подключение: https://us06web.zoom.us/j/84061449320?pwd=q9oLPX9i4NNTRhHeOKCXIJYUAwC3ta.1
Что с этим делать? Steering vs capping С одной стороны инуитивно применить steering — активное управление: мы постоянно добавляем сдвиг вдоль Assistant Axis, тем самым заставляя модель быть более «ассистентской». Но авторы используют это только как диагностический инструмент, так как как практическое решение steering груб — он вмешивается всегда, подавляет допустимый role-play и может ухудшать reasoning и гибкость модели. Вместо него в статье предложен activation capping. Модель не тянут к ассис...