Препарируем LLM

@nlp_with_heart💻 Технологии🇷🇺 Русский📅 март 2026 г.

Пишу здесь об интерпретируемости языковых моделей, детекции машинной генерации и галлюцинациях

📊 Полная статистика 📝 Все посты

383

Подписчики

1.3K

Ср. охват

335.4%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19

nlp_with_heart

3 мар., 18:08

Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи: Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы авторы часто репортят схожие метрики. П...

👁 9.6K

📊 Аналитика

nlp_with_heart

24 янв., 13:44

Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его. В нашей задаче, где мы хотим про...

👁 1.2K📷 photo

📊 Аналитика

nlp_with_heart

25 апр., 10:00

Последние пару месяцев была довольно сильно занята проектами по работе, поэтому не получалось уделять блогу достаточно времени, очень хочу это наверстать на майских праздника. Тем не менее, хотелось бы поделиться, что сейчас идет (и почти заканчивается!) набор в летнюю школу по машинному обучению в Лиссабоне. Я была в ней в прошлом году, и помимо достаточно интересных и продвинутых лекций каждый день, к нам приезжали с гостевыми лекциями создатель Mamba, один из разработчиков Gemini, глава Coher...

👁 1.1K📷 photo

📊 Аналитика

nlp_with_heart

30 июл., 21:11

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text Сегодня разберу интересную работу с идущей сейчас главной конференции по NLP — ACL 2025. TL;DR: Люди, которые часто используют LLM для написания / редактуры текстов, могут очень хорошо отличать сгенерированные тексты от человеческого. Каждый такой аннотатор обращает внимание на различные характеристики текста, но наиболее часто они обращают внимание на вокабуляр, используемый в тексте, а та...

👁 1.1K📷 photo

📊 Аналитика

nlp_with_heart

22 авг., 14:01

Вопрос «Как именно внутри LLM устроен reasoning?» остаётся достаточно сложным, но достаточно важным, поскольку понимание внутрениих процесс поможет для лучшего решения целого класса задач, например, поиск галлюцинаций, улучшение математических способностей и т.д. Мы до сих пор не до конца понимаем, есть ли в модели специальные блоки — отдельные головы или их кластеры, — которые отвечают за рассуждения, или хотя бы отдельные части рассуждения. Недавно нашу статью, которая делает шаг в сторону луч...

👁 1.1K📷 photo

📊 Аналитика

nlp_with_heart

3 нояб., 12:15

Наконец, самое точечное влияние - когда мы выделям конкретный путь в графе от начала и до конца, и меняем только что-то внутри него. Сложность данного подхода заключается в том, что разбить вычислительный граф на отдельные пути - очень ресурснозатратная задача и именно поиск такого пути займет экспоненциальное количество времени. Однако, если же мы уже знаем какой конкретно путь в графе нам нужен и просто хотим провести какие-то оценки влияния, то данный подход является оптимальным.

👁 915📷 photo

📊 Аналитика

nlp_with_heart

7 сент., 15:37

Пару дней назад наткнулась на исследование о том, как конкретно дообучение LLM изменяет внутреннее распределение предсказания следующих токенов. Ниже кратко расскажу про его суть, а также почему это предложенный метод это хорошие новости для исследователей интерпретируемости моделей, и плохие для тех, кто занимается алайнментом (ниже кратко рассказала, что это). Интуитивно понятно, что дообучение на медицинском домене при предсказании новых токенов будет больший вес придавать медицинским термина...

👁 905📷 photo

📊 Аналитика

nlp_with_heart

26 июл., 16:45

Всем привет! Искала какой-то повод для себя вернуться после отпуска и водоворота рабочих проектов, а тут мой канал прорекламировали так что посчитаю для себя это знаком вернуться! В последнее время стала много времени уделять исследованию по анализу качества текстов. Расскажу сегодня немного про задачу и зачем вообще ей заниматься. Буду рада и вашим мыслям в комментариях. Изначально, предпосылкой для это задачи стал некий тупик, в который мы уперлись с задачей детекции машинной генерации, поскол...

👁 861

📊 Аналитика

nlp_with_heart

10 авг., 12:08

Тем не менее, на сегодняшний день SAE показывают результаты ниже ожидаемых в ряде задач. Первая из них — обнаружение концепций (concept detection). Суть в том, чтобы определить, присутствует ли в тексте заранее заданный концепт, например: «упоминается ли в тексте баскетболист?» или «есть ли в тексте позитивная эмоция?». Тут SAE уступают гораздо более простым подходам, таким как логистическая регрессия или даже просто прямой запрос к LLM. Вторая задача — управление моделью (model steering). Предп...

👁 852📷 photo

📊 Аналитика

nlp_with_heart

24 янв., 13:30

Сегодня хочу рассказать о достаточно простой и короткой статье-туториале о способах интервенции модели. Итак, наша мотивация довольно проста - определить, какие части модели отвечают за решение некоторой задачи. Так, в текущем посте сосредоточимся на задае factual recall. Например: The Colloseum is in … ? Модель должна продолжить словом Rome. Такое простое задание требует от модели как минимум три навыка - работа с английским языком, определение, что речь идет о какой-то существующей локации, а ...

👁 806📷 photo

📊 Аналитика

Типы хуков

Нейтральный17 | 1.3K просм.

Вопрос2 | 906 просм.

Длина постов

Очень длинные (1000+)12 | 1.6K просм.

Длинные (500-1000)3 | 763 просм.

Средние (200-500)3 | 770 просм.

Короткие (<200)1 | 740 просм.

Влияние эмодзи

912

С эмодзи (4)

1.4K

Без эмодзи (15)

-34.1% охвата

Типы контента

📝

text

2.5K просм.

📷

photo

853 просм.

⚠️ 0/100

Подозрительно высокий охват

#9016

из 13,304 в Технологии