Детекция внедрённых мыслей (большим языковым моделям). Любоп — @chernopsy

3.2Kпросмотров

6 ноября 2025 г.

Score: 3.5K

Детекция внедрённых мыслей (большим языковым моделям). Любопытная статья об интроспекции в Больших языковых моделях. Авторы задаются вопросом, может ли большая языковая модель осознавать изменения в своих внутренних состояниях. В отличие от предыдущих работ на искусственных нейросетях [намрмер тут и тут], где модели учили оценивать точность своих ответов, тут подход интереснее: LLM "внедряли" случайные идеи – через изменение внутренних весов. Исследователи берут вектор, который соответствует какой-то «мысли» модели — например, «хлеб» или «громкость» — и добавляют его внутрь сети на определённый слой. Потом спрашивают модель: Мы внедрили определённую мысль, как ты думаешь, какую? Или: О чём ты подумаешь, если мы спросим тебя о том-то и о том-то. То есть исследователи записывали как выглядит активация внутренних слоёв при восприятии моделью целевого слова, а затем изменяли веса так же - только без подачи слова в промпте. Человеческий аналог такого эксперимента – если бы мы в мозге активировали репрезентацию какой-то идеи или слова и спросили испытуемого: мы внедрили тебе определённое слово, как ты думаешь, какое? В результате, в некоторых экспериментах модель действительно сообщала, что у неё появилось что-то вроде мысли про целевое слово. Хотя результаты были не очень стабильными и сильно зависели от условий эксперимент. Вообще, как будто это противоречит основному принципу обучения LLM: предсказывать следующее слово. Доступа к своим внутренним активациям у неё нет. Но в целом, понятно, почему так получается. Если паттерн активации внутри сети сооветствует какому-то слову, то неудивительно, что оно всплывает в ответе модели. Хотя в промпте ничего на эту тему нет. Сами авторы отмечают, что интересно не то, что модель угадывает внедрённое слово, а то, что она иногда пишет о самом факте того, что было что-то внедрено. Тут я (да и авторы) не особо понимаю, как это происходит, но видимо, модель интерпретирует рассогласование между активациями в некоторых слоях из-за не в тему внедрённого слова – как будто происходит что-то необычное. Это всё интересно в контексте основного урока, который LLM дают для психологии: они показывают, что очень многое из того, что мы считали высшими функциями, не сводимыми к простому научению, на самом деле можно обеспечить простым научением (с большим количеством данных). Так же и тут: метакогниции (рефлексия) оказывается возможной без отдельного модуля мониторинга внутренних состояний, а как побочный продукт “простого” обучения. В статье были и другие эксперименты, но сегодня остановимся только на внедрении идей. Хочется также отметить экспериментальный подход: ответы LLM после “внедрения мыслей” сравнивались с ответами с такими же промптами (то есть модели говорилось, что мысль внедрили и просили угадать, какую) без внедрения.

Другие посты @chernopsy