1.0Kпросмотров
30.7%от подписчиков
14 января 2026 г.
question🎬 ВидеоScore: 1.1K
🧠 Бесконечный контекст без дообучения? Встречайте DroPE от Sakana AI Обычно, чтобы заставить LLM работать с длинным контекстом (Long Context), приходится либо использовать методы интерполяции (как YaRN), либо проводить дорогостоящий файн-тюнинг на длинных последовательностях. Ребята из Sakana AI (те самые, что делают Evolution Merging) выпустили новый метод — DroPE (Dropping Positional Embeddings). В чем суть?
Авторы заметили парадокс: позиционные эмбеддинги (например, RoPE) критически важны для сходимости во время обучения, но на этапе инференса они становятся бутылочным горлышком, мешающим модели обобщаться на длину, превышающую ту, что была в трейне. Как это работает: 1. Pre-training: Модель учится как обычно с RoPE.
2. Dropping: После обучения позиционные эмбеддинги... просто удаляются.
3. Recalibration: Проводится быстрая и дешевая калибровка на исходной (короткой) длине контекста. Результат:
Модель начинает отлично работать с контекстом, который в разы превышает длину обучения (например, 2x и более), при этом не требуя тяжелых вычислений или специализированных архитектур. Почему это круто:
✅ Дешевле: Не нужен дорогой Long-Context Fine-Tuning.
✅ Эффективнее: Работает лучше, чем популярные методы скейлинга типа YaRN или Position Interpolation (PI).
✅ Универсально: Протестировано на Llama-2 и SmolLM. Авторы утверждают, что позиционные эмбеддинги - это как "тренировочные колеса": они нужны, чтобы научиться ездить, но потом только мешают ехать далеко. 📄 Paper: https://pub.sakana.ai/DroPE/ 🔗 Репозиторий: github.com/SakanaAI/DroPE #AI #LLM #SakanaAI #LongContext #Research 👉 @bigdata_1