How much do language models memorize? Вопрос о том, запомина — @c_research

778просмотров

67.8%от подписчиков

7 октября 2025 г.

question📷 ФотоScore: 856

How much do language models memorize? Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членство дают лишь статистическую оценку по всему датасету, а не для конкретного примера. Авторы предлагают новый, более фундаментальный подход к измерению запоминания, основанный на теории информации и идее сжатия. Идея и метод Ключевая идея — измерять запоминание в битах. Модель считается "запомнившей" точку данных x, если с помощью этой модели можно сжать x в более короткое представление. Эта концепция основана на Колмогоровской сложности, но для практических расчётов используются логарифмы вероятностей, которые выдает модель (принцип арифметического кодирования). Самое важное: авторы разделяют запоминание на две компоненты: 1️⃣ Непреднамеренное запоминание (Unintended Memorization): Информация, которую модель хранит о конкретном датасете. Это и есть "вредное" запоминание, которое нас интересует. 2️⃣ Обобщение (Generalization) или "намеренное запоминание": Информация, которую модель извлекла об общем процессе генерации данных (например, правила грамматики или арифметики). Чтобы отделить одно от другого, используется референсная модель — более крупная модель, обученная на огромном суперсете данных, которая аппроксимирует "истинное" распределение данных. Тогда непреднамеренное запоминание точки x моделью θ' — это разница в битах, необходимых для кодирования x с помощью референсной модели θ и с помощью нашей модели θ'. Если θ' сжимает x лучше, чем θ, значит, она содержит специфическую информацию об x, которой нет у "всезнающей" референсной модели. Сколько информации хранится в параметрах? Первая часть экспериментов была направлена на измерение "чистой" ёмкости моделей. Для этого исключили возможность обобщения, обучая модели на датасетах из случайных битовых строк. Результат: Модели семейства GPT могут хранить примерно 3.6 бита информации на один параметр (при обучении в bfloat16). Удвоение точности до float32 увеличивает эту ёмкость незначительно (до ~3.8 бит/параметр), что говорит о неэффективности избыточной точности для простого хранения данных. Запоминание и обобщение на реальных текстах Далее эксперименты повторили на текстовых данных (FineWeb), где обобщение уже возможно и полезно. Ключевые наблюдения: ➡️Сначала заполняется ёмкость: Модель сначала активно запоминает данные, пока не достигнет своего предела ёмкости. Общее количество запомненной информации (в битах) растет с размером датасета, но в итоге упирается в плато, определяемое размером модели (см. Figure 1). ➡️"Гроккинг" и двойной спуск: Как только ёмкость модели заполнена, начинается самое интересное. Модель больше не может позволить себе хранить информацию о каждом примере отдельно и вынуждена искать общие, обобщающие паттерны. В этот момент непреднамеренное запоминание начинает падать, а обобщение – расти. Именно на этом переходе, когда размер датасета (в битах) превышает ёмкость модели, авторы наблюдают феномен "двойного спуска" (double descent) — временное ухудшение качества на тестовых данных с последующим улучшением. ➡️Законы масштабирования для Membership Inference: На основе своих измерений авторы вывели закон масштабирования, который предсказывает успешность атак на определение членства в зависимости от ёмкости модели и размера датасета. Закон подтверждается на более крупных моделях и показывает, почему для современных LLM, обученных на триллионах токенов, такие атаки в среднем практически невозможны. Работа понравилась как пример применения фундаментальных идей из теории информации для ответа на очень практический вопрос. Она дает нам не

Другие посты @c_research