Self-Distillation Enables Continual Learning [Код & датасеты — @c_research

728просмотров

63.5%от подписчиков

6 февраля 2026 г.

📷 ФотоScore: 801

Self-Distillation Enables Continual Learning [Код & датасеты] Исследователи из MIT и ETH Zurich предлагают SDFT (Self-Distillation Fine-Tuning) — метод для непрерывного обучения (continual learning) языковых моделей. Главная проблема SFT при обучении новым навыкам — это catastrophic forgetting (забывание старых знаний) и distribution shift, так как SFT по своей сути является off-policy методом (модель учится на экспертных данных, а не на своих собственных генерациях). Авторы предлагают заменить SFT на on-policy дистилляцию, где модель выступает учителем сама для себя, используя in-context learning. Метод: On-Policy Distillation via ICL Идея SDFT строится на том, что LLM — отличные in-context learners. Если подать модели экспертную демонстрацию (c) в контекст, она начинает вести себя как "улучшенная версия себя", близкая к оптимальной политике. • Teacher & Student: используется одна и та же модель π. Student (P): получает только запрос x. Генерирует ответ y на основе своей текущей политики. Это on-policy данные. Teacher (Q): получает запрос x + экспертную демонстрацию c (пример идеального ответа). Выдает распределение вероятностей токенов на сгенерированной студентом траектории y. Важно: веса учителя — это EMA весов студента, что критично для стабильности обучения. • Objective: минимизируется обратная KL-дивергенция между студентом и учителем на сэмплах студента: L(θ) = E_y~Student [ log (Student(y|x) / Teacher(y|x, c)) ] Это эквивалентно on-policy RL, где награда определена неявно через отношение правдоподобия учителя к студенту: r(y, x, c) = log π(y|x, c) - log π_k(y|x) • Optimization: градиенты считаются через likelihood ratio estimator. Используется full analytic per-token estimator для KL (считают KL для всего словаря на каждом шаге), что уменьшает дисперсию по сравнению с token-level approximation. Эксперименты Метод тестировали в двух сценариях непрерывного обучения: • Skill Learning: обучение новым навыкам (Science Q&A, Tool Use, Medical Reasoning) без потери общих способностей модели. • Knowledge Acquisition: внедрение новых фактов (события 2025 года, которых не было в претрейне) в веса модели. Для оценки забывания использовали стандартный набор бенчмарков: MMLU, GSM8k, HumanEval и др. В качестве базы — Qwen2.5-7B-Instruct. Результаты • Против SFT: SDFT значительно превосходит SFT. В задачах на новые навыки SDFT достигает более высокой точности и практически не деградирует на старых задачах, тогда как SFT вызывает сильное забывание. • Sequential Learning: в тесте на последовательное обучение трем навыкам подряд (Tool Use -> Science -> Medical) SDFT демонстрирует стабильный рост всех навыков. SFT же начинает "забывать" первый навык, как только переходит ко второму, демонстрируя осцилляцию. • Knowledge Injection: в задаче внедрения новых знаний SDFT точнее и показывает почти идеальное обобщение на out-of-distribution вопросы (вопросы, требующие знания фактов, но сформулированные иначе). • Teacher Quality: авторы показали, что учитель с демонстрацией в контексте (Teacher(y|x, c)) находится гораздо ближе к исходной модели (по KL), чем модель после SFT на тех же данных. Это объясняет, почему он помогает сдерживать дрейф распределения.

Другие посты @c_research