Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи: Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы авторы часто репортят схожие метрики. П...
Препарируем LLM
Пишу здесь об интерпретируемости языковых моделей, детекции машинной генерации и галлюцинациях
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его. В нашей задаче, где мы хотим про...
Последние пару месяцев была довольно сильно занята проектами по работе, поэтому не получалось уделять блогу достаточно времени, очень хочу это наверстать на майских праздника. Тем не менее, хотелось бы поделиться, что сейчас идет (и почти заканчивается!) набор в летнюю школу по машинному обучению в Лиссабоне. Я была в ней в прошлом году, и помимо достаточно интересных и продвинутых лекций каждый день, к нам приезжали с гостевыми лекциями создатель Mamba, один из разработчиков Gemini, глава Coher...
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text Сегодня разберу интересную работу с идущей сейчас главной конференции по NLP — ACL 2025. TL;DR: Люди, которые часто используют LLM для написания / редактуры текстов, могут очень хорошо отличать сгенерированные тексты от человеческого. Каждый такой аннотатор обращает внимание на различные характеристики текста, но наиболее часто они обращают внимание на вокабуляр, используемый в тексте, а та...
Вопрос «Как именно внутри LLM устроен reasoning?» остаётся достаточно сложным, но достаточно важным, поскольку понимание внутрениих процесс поможет для лучшего решения целого класса задач, например, поиск галлюцинаций, улучшение математических способностей и т.д. Мы до сих пор не до конца понимаем, есть ли в модели специальные блоки — отдельные головы или их кластеры, — которые отвечают за рассуждения, или хотя бы отдельные части рассуждения. Недавно нашу статью, которая делает шаг в сторону луч...
Наконец, самое точечное влияние - когда мы выделям конкретный путь в графе от начала и до конца, и меняем только что-то внутри него. Сложность данного подхода заключается в том, что разбить вычислительный граф на отдельные пути - очень ресурснозатратная задача и именно поиск такого пути займет экспоненциальное количество времени. Однако, если же мы уже знаем какой конкретно путь в графе нам нужен и просто хотим провести какие-то оценки влияния, то данный подход является оптимальным.
Пару дней назад наткнулась на исследование о том, как конкретно дообучение LLM изменяет внутреннее распределение предсказания следующих токенов. Ниже кратко расскажу про его суть, а также почему это предложенный метод это хорошие новости для исследователей интерпретируемости моделей, и плохие для тех, кто занимается алайнментом (ниже кратко рассказала, что это). Интуитивно понятно, что дообучение на медицинском домене при предсказании новых токенов будет больший вес придавать медицинским термина...
Всем привет! Искала какой-то повод для себя вернуться после отпуска и водоворота рабочих проектов, а тут мой канал прорекламировали так что посчитаю для себя это знаком вернуться! В последнее время стала много времени уделять исследованию по анализу качества текстов. Расскажу сегодня немного про задачу и зачем вообще ей заниматься. Буду рада и вашим мыслям в комментариях. Изначально, предпосылкой для это задачи стал некий тупик, в который мы уперлись с задачей детекции машинной генерации, поскол...
Тем не менее, на сегодняшний день SAE показывают результаты ниже ожидаемых в ряде задач. Первая из них — обнаружение концепций (concept detection). Суть в том, чтобы определить, присутствует ли в тексте заранее заданный концепт, например: «упоминается ли в тексте баскетболист?» или «есть ли в тексте позитивная эмоция?». Тут SAE уступают гораздо более простым подходам, таким как логистическая регрессия или даже просто прямой запрос к LLM. Вторая задача — управление моделью (model steering). Предп...
Сегодня хочу рассказать о достаточно простой и короткой статье-туториале о способах интервенции модели. Итак, наша мотивация довольно проста - определить, какие части модели отвечают за решение некоторой задачи. Так, в текущем посте сосредоточимся на задае factual recall. Например: The Colloseum is in … ? Модель должна продолжить словом Rome. Такое простое задание требует от модели как минимум три навыка - работа с английским языком, определение, что речь идет о какой-то существующей локации, а ...