ППрепарируем LLM

Препарируем LLM

@nlp_with_heart💻 Технологии🇷🇺 Русский📅 март 2026 г.

Пишу здесь об интерпретируемости языковых моделей, детекции машинной генерации и галлюцинациях

📊 Полная статистика📝 Все посты
383
Подписчики
1.3K
Ср. охват
335.4%
Вовлечённость
19
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19
Nnlp_with_heart
nlp_with_heart
3 мар., 18:08

Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи: Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы авторы часто репортят схожие метрики. П...

👁 9.6K
Nnlp_with_heart
nlp_with_heart
24 янв., 13:44

Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его. В нашей задаче, где мы хотим про...

👁 1.2K📷 photo
Nnlp_with_heart
nlp_with_heart
25 апр., 10:00

Последние пару месяцев была довольно сильно занята проектами по работе, поэтому не получалось уделять блогу достаточно времени, очень хочу это наверстать на майских праздника. Тем не менее, хотелось бы поделиться, что сейчас идет (и почти заканчивается!) набор в летнюю школу по машинному обучению в Лиссабоне. Я была в ней в прошлом году, и помимо достаточно интересных и продвинутых лекций каждый день, к нам приезжали с гостевыми лекциями создатель Mamba, один из разработчиков Gemini, глава Coher...

👁 1.1K📷 photo
Nnlp_with_heart
nlp_with_heart
30 июл., 21:11

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text Сегодня разберу интересную работу с идущей сейчас главной конференции по NLP — ACL 2025. TL;DR: Люди, которые часто используют LLM для написания / редактуры текстов, могут очень хорошо отличать сгенерированные тексты от человеческого. Каждый такой аннотатор обращает внимание на различные характеристики текста, но наиболее часто они обращают внимание на вокабуляр, используемый в тексте, а та...

👁 1.1K📷 photo
Nnlp_with_heart
nlp_with_heart
22 авг., 14:01

Вопрос «Как именно внутри LLM устроен reasoning?» остаётся достаточно сложным, но достаточно важным, поскольку понимание внутрениих процесс поможет для лучшего решения целого класса задач, например, поиск галлюцинаций, улучшение математических способностей и т.д. Мы до сих пор не до конца понимаем, есть ли в модели специальные блоки — отдельные головы или их кластеры, — которые отвечают за рассуждения, или хотя бы отдельные части рассуждения. Недавно нашу статью, которая делает шаг в сторону луч...

👁 1.1K📷 photo
Nnlp_with_heart
nlp_with_heart
3 нояб., 12:15

Наконец, самое точечное влияние - когда мы выделям конкретный путь в графе от начала и до конца, и меняем только что-то внутри него. Сложность данного подхода заключается в том, что разбить вычислительный граф на отдельные пути - очень ресурснозатратная задача и именно поиск такого пути займет экспоненциальное количество времени. Однако, если же мы уже знаем какой конкретно путь в графе нам нужен и просто хотим провести какие-то оценки влияния, то данный подход является оптимальным.

👁 915📷 photo
Nnlp_with_heart
nlp_with_heart
7 сент., 15:37

Пару дней назад наткнулась на исследование о том, как конкретно дообучение LLM изменяет внутреннее распределение предсказания следующих токенов. Ниже кратко расскажу про его суть, а также почему это предложенный метод это хорошие новости для исследователей интерпретируемости моделей, и плохие для тех, кто занимается алайнментом (ниже кратко рассказала, что это). Интуитивно понятно, что дообучение на медицинском домене при предсказании новых токенов будет больший вес придавать медицинским термина...

👁 905📷 photo
Nnlp_with_heart
nlp_with_heart
26 июл., 16:45

Всем привет! Искала какой-то повод для себя вернуться после отпуска и водоворота рабочих проектов, а тут мой канал прорекламировали так что посчитаю для себя это знаком вернуться! В последнее время стала много времени уделять исследованию по анализу качества текстов. Расскажу сегодня немного про задачу и зачем вообще ей заниматься. Буду рада и вашим мыслям в комментариях. Изначально, предпосылкой для это задачи стал некий тупик, в который мы уперлись с задачей детекции машинной генерации, поскол...

👁 861
Nnlp_with_heart
nlp_with_heart
10 авг., 12:08

Тем не менее, на сегодняшний день SAE показывают результаты ниже ожидаемых в ряде задач. Первая из них — обнаружение концепций (concept detection). Суть в том, чтобы определить, присутствует ли в тексте заранее заданный концепт, например: «упоминается ли в тексте баскетболист?» или «есть ли в тексте позитивная эмоция?». Тут SAE уступают гораздо более простым подходам, таким как логистическая регрессия или даже просто прямой запрос к LLM. Вторая задача — управление моделью (model steering). Предп...

👁 852📷 photo
Nnlp_with_heart
nlp_with_heart
24 янв., 13:30

Сегодня хочу рассказать о достаточно простой и короткой статье-туториале о способах интервенции модели. Итак, наша мотивация довольно проста - определить, какие части модели отвечают за решение некоторой задачи. Так, в текущем посте сосредоточимся на задае factual recall. Например: The Colloseum is in … ? Модель должна продолжить словом Rome. Такое простое задание требует от модели как минимум три навыка - работа с английским языком, определение, что речь идет о какой-то существующей локации, а ...

👁 806📷 photo

Типы хуков

Нейтральный17 | 1.3K просм.
Вопрос2 | 906 просм.

Длина постов

Очень длинные (1000+)12 | 1.6K просм.
Длинные (500-1000)3 | 763 просм.
Средние (200-500)3 | 770 просм.
Короткие (<200)1 | 740 просм.

Влияние эмодзи

912
С эмодзи (4)
1.4K
Без эмодзи (15)
-34.1% охвата

Типы контента

📝
5
text
2.5K просм.
📷
14
photo
853 просм.
Препарируем LLM (@nlp_with_heart) — Telegram-канал | PostSniper