Тем не менее, на сегодняшний день SAE показывают результаты — @nlp_with_heart

852просмотров

10 августа 2025 г.

📷 ФотоScore: 937

Тем не менее, на сегодняшний день SAE показывают результаты ниже ожидаемых в ряде задач. Первая из них — обнаружение концепций (concept detection). Суть в том, чтобы определить, присутствует ли в тексте заранее заданный концепт, например: «упоминается ли в тексте баскетболист?» или «есть ли в тексте позитивная эмоция?». Тут SAE уступают гораздо более простым подходам, таким как логистическая регрессия или даже просто прямой запрос к LLM. Вторая задача — управление моделью (model steering). Предполагается, что изменяя внутренние представления модели, можно изменить ее поведение, например заставить LLM в ответе на вопрос упомянуть экономический кризис 2008 года. На практике же, прямое указание в промпте или дообучение модели работают куда лучше. Однако, это не значит, что SAE — бесполезный инструмент, ведь обе эти задачи имеют общую особенность: концепт здесь подаётся на вход. Но по своему дизайну, SAE при отображении представления теряют часть информации, поэтому они и будут проигрывать методам, где такой потери нет. Если мы перейдем к задачам, где требуется найти в тексте новые, заранее неизвестные концепты, то увидим, что с ними SAE справляется гораздо лучше. Так, например, в работе по генерации гипотез (hypothesis generation) исследователи взяли корпус новостных заголовков, каждый из которых имел числовую оценку вовлечённости читателей. SAE выделил и описал концепты, позволяющие предсказать этот уровень вовлечённости, гораздо лучше других методов. Таким образом, можно применять SAE в случае, когда необходимо описать естественным языком, что конкретно влияет на искомую переменную. Вторая работа, в которой также концепты изначально не заданы, посвящена механике LLM (biology of LLMs). Задача заключалась в том, чтобы выявить, какие механизмы моделей активируются в процессе выполнения различных задач. Так, при решении примера «36 + 59» модель активировала нейрон «единицы = 5» и «40 + 50». А при написании стихотворения, если первая строка заканчивалась на слово «rabbit», сразу после её генерации включался нейрон «рифмуется с “it”». Итого: в задачах, где нужно работать с заранее заданными концепциями, SAE проигрывают, в то время как в задачах с поиском новых, объясняющих задачу концептов, они показывают себя лучше остальных методов. Статья

Другие посты @nlp_with_heart