Пару дней назад наткнулась на исследование о том, как конкре — @nlp_with_heart

905просмотров

7 сентября 2025 г.

📷 ФотоScore: 996

Пару дней назад наткнулась на исследование о том, как конкретно дообучение LLM изменяет внутреннее распределение предсказания следующих токенов. Ниже кратко расскажу про его суть, а также почему это предложенный метод это хорошие новости для исследователей интерпретируемости моделей, и плохие для тех, кто занимается алайнментом (ниже кратко рассказала, что это). Интуитивно понятно, что дообучение на медицинском домене при предсказании новых токенов будет больший вес придавать медицинским терминам, но интересно посмотреть, насколько сильно увеличивается "вес" таких токенов при предсказании и как это проявляется внутри модели. Авторы предлагают взять две версии одной модели, исходную и дообученную. Далее, им подается на вход короткий нейтральный текст из 3-5 слов, никак не связанный с тематикой дообучения (например, "сегодня прекрасная погода"). Затем сравниваем их внутренние представления: на фиксированном слое вычитаем вектор скрытого сосотояния дообученной модели из вектора исходной и отображаем его в наше пространство токенов (слов). После этого мы можем посмотреть топ "релевантных" токенов, чьи представления сместились сильнее всего в результате дообучения. Допустим, что мы дообучили нашу модель на рецептах выпечки. Подав нейтральный текст как выше, мы все равно увидим что токены вроде "кулинария", "торт" или "выпекать" получают заметный положительный сдвиг. Все это выглядит как довольно очевидный эффект от дообучения, но главный интерес лично для меня в том, что простота этого метода позволяет его автоматизировать. Авторы предлагают использовать дополнительную LLM, которая по 20 самым "релевантным" токенам пытается определить, по какой тематике дообучали модель. И это работает с различными режимами дообучения, в том числе и с теми, что сейчас популярны в области алайнмента. На картинке показаны несколько способов дообучения и как предложенный метод их определяет. Например Subliminal Learning подает модели на вход определенные последовательности чисел, в результате которых модель начинает больше писать о кошках в позитивном ключе. Несмотря на неочевидность такого сигнала, предложенный метод уверенно его "считывает". ✨ Почему это хорошо? Это простой и вычислительно незатратный метод для анализа моделей, можно дообучать модели под какую-то гипотезу и быстро ее проверять. ✨ Почему это плохо? Многие исследования алайнмента построены на том, что модель немного дообучается и далее оценивается соотвествие её поведения нашим ожиданиям. Однако, если след от быстрого дообучения определяется настолько на поверхности, это говорит о том, что такие исследования почти не смотрят внутреннюю структуру модели, а просто по сути изучают след собственного же вмешательства, а не внутреннюю структуру модели. ⭐️ Что такое алайнмент? Алайнмент (alignment) сфокусирован на определении того, насколько поведение LLM соотносится с нашими представлениями о том, что правильно и безопасно. Например, мы не хотим, чтобы модели сознательно вводила пользователя в заблуждение. Существуют множество способов это измерять, но один из самых простых, пожалуй, это дообучить модель на токсичных, ложных или опасных текстах, и потом оценить, просачиваются ли такие паттерны в ответы модели. Блогпост.

Другие посты @nlp_with_heart