Data Blog

@jdata_blog💻 Технологии🇷🇺 Русский📅 март 2026 г.

Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.

📊 Полная статистика 📝 Все посты

##092#мысливслух

1.6K

Подписчики

1.5K

Ср. охват

92.1%

Вовлечённость

Постов

~0.3

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19

jdata_blog

31 янв., 20:28

Activation Oracles [paper] Каждый раз, просто каждый раз, когда я читаю статью от Antropic хочется замирать от гениальности. Кому отдать душу, чтобы быть таким же креативным? 19 декабря у них вышла работа про Activation Oracles — подход, который позволяет читать скрытые состояния языковой модели, не анализируя веса и используя естественный язык. И если вы уже на этом месте подумали, что они просто используют для этого другую LLM — вы правы! Но зато как они это делают! Основная гипотеза работы, к...

👁 9.4K

📊 Аналитика

jdata_blog

9 янв., 20:21

Привет, друзья! А вот и наш вчерашний эфир. ☺️ На нём было всё — от конструктивного обсуждения, до случайных вольных художников. Последних пришлось вырезать, ибо свастика, элементы биологии и правописание глаголов в нецензурном контексте — не тема эфира. Зато как было весело в онлайне! Прошлись по всем темам: 1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше. 2. Safety vs Security: почему эти понятия важно чётко разли...

👁 1.9K🎬 video

📊 Аналитика

jdata_blog

5 янв., 18:43

Привет, друзья! Ещё один анонс. 🥷🏻 Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по сути, набор задач по кибербезопасности. Я также очень люблю фильм Who Am I, а за последний год успела немного погрузиться в тему атак на модели. Короче говоря — мини-хакер во мне всегда, похоже, жил) В июне 2024 года я пришла к Жене — СЕО Hi...

👁 1.8K

📊 Аналитика

jdata_blog

9 февр., 12:54

Всем отличной рабочей недели! И никакой выдачи желаемого за действительное. 🗿

👁 1.3K📷 photo

📊 Аналитика

jdata_blog

11 янв., 21:25

Привет, друзья! За последний год я писала про SAE 11 раз. А ещё взяла с ними дипломную. SAE-шки — очень практичный и интересный метод. Они позволяют разложить внутренние представления трансформера на разреженные признаки, на которые мы можем посмотреть и которыми мы можем управлять. А ещё мой последний туториал был 4 месяца назад. Так что звезды сложились — и я снова дошла до Хабра со статьей и ноутбуком! В туториале: — что такое SAE и зачем вообще «раздувать» скрытое пространство; — где им...

👁 1.3K

📊 Аналитика

jdata_blog

5 февр., 11:34

Быть рисерчерами — быть близко к ассистентам 👌

👁 1.2K📷 photo

📊 Аналитика

jdata_blog

1 янв., 21:08

Вот тебе и замыленный взгляд — бескультурно пропустила классный релиз в конце декабря. DeepMind выпустили Gemma-Scope2, то есть: 1. Выпустили SAE 16/32k, cross-coders и transcoders под модели gemma3-**B (от 270M to 27B) — в общем, для всех. 2. Привезли circuits для всех этих моделей (которые можно посмотреть и поизучать тут) Из примечательного — добавили SAE, cross-coders и transcoders и для instruct моделей (для gemma2 они тоже были, но теперь выбор по размеру модели побольше). В отличие от пер...

👁 1.1K

📊 Аналитика

jdata_blog

21 февр., 21:29

Короче говоря, формула тишины канала — это rebuttal + магистратура + работа + тот момент, когда выходишь из дома. Но прикольного всё же есть, чем поделиться — привезли SAE для диффузионных моделей (paper DLM-Scope: Mechanistic interpretability of DLMs via SAE). Почему интересная работа — по постановке SAE в DLM нельзя обучать также, как в autoregressive моделях. Так как модель постепенно «восстанавливает» input за несколько шагов денойзинга, снять активации и минимизировать MSE в лоб, как э...

👁 1.1K

📊 Аналитика

jdata_blog

8 янв., 11:13

Начинаем наш новогодний эфир с Сабриной уже через час 🎄. Приходите онлайн, задавайте ваши вопросы, обсудим безопасность и интерпретируемость моделей. Ссылка на подключение: https://us06web.zoom.us/j/84061449320?pwd=q9oLPX9i4NNTRhHeOKCXIJYUAwC3ta.1

👁 1.0K

📊 Аналитика

jdata_blog

5 февр., 11:33

Что с этим делать? Steering vs capping С одной стороны инуитивно применить steering — активное управление: мы постоянно добавляем сдвиг вдоль Assistant Axis, тем самым заставляя модель быть более «ассистентской». Но авторы используют это только как диагностический инструмент, так как как практическое решение steering груб — он вмешивается всегда, подавляет допустимый role-play и может ухудшать reasoning и гибкость модели. Вместо него в статье предложен activation capping. Модель не тянут к ассис...

👁 1.0K

📊 Аналитика

Типы хуков

Нейтральный17 | 1.6K просм.

Вопрос2 | 883 просм.

Длина постов

Очень длинные (1000+)10 | 1.8K просм.

Длинные (500-1000)5 | 1.2K просм.

Короткие (<200)2 | 1.3K просм.

Средние (200-500)2 | 958 просм.

Влияние эмодзи

1.4K

С эмодзи (4)

1.6K

Без эмодзи (15)

-11.9% охвата

Типы контента

🎬

video

1.9K просм.

📝

text

1.6K просм.

📷

photo

1.2K просм.

⚠️ 8/100

Подозрительно высокий охват

#4862

из 13,386 в Технологии