П
Препарируем LLM
@nlp_with_heart383 подп.
1.2Kпросмотров
24 января 2025 г.
📷 ФотоScore: 1.3K
Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его. В нашей задаче, где мы хотим проверить работу модели с локациями, назовём «чистым» промптом наш промпт с Колизеем и Римом, а «поврежденным» (corrupted) - промпт с Лувром в Париже. ⭐️Denoising - когда мы подмешиваем активации с чистого промпта к поврежденному. Так как мы запускаем на втором промпте, то модель сначала выдает Париж. При увеличении количества замененных активаций, в какой-то момент модель станет выдавать Рим вместо Парижа. Таким образом, мы найдем части модели, который достаточны для связи локации в вопросе с Римом и соотвественно выдачи именно Рима в ответе. ⭐️Noising - когда, наоборот, мы подмешиваем активации с поврежденного промпта к чистому. Тут изначально модель выдает Рим (так как мы запускаем на чистом промпте), но в какой-то момент она перестанет это делать, и таким образом, noising позволяет найти путь в модели, необходимый для определения локации с Римом, так как при его изменении «ломается» поведение модели В статье еще можно прочитать про различные любопытные моменты связанные с настройкой интерпретацией всего того, что мы получаем в результате activation patching😈 Оригинальная статья: How to use and interpret activation patching
1.2K
просмотров
1650
символов
Да
эмодзи
Да
медиа

Другие посты @nlp_with_heart

Все посты канала →
Существует два подхода в таком смешивании (его еще называют — @nlp_with_heart | PostSniper