🧠 Бесконечный контекст без дообучения? Встречайте DroPE от — @bigdata_1

1.0Kпросмотров

30.7%от подписчиков

14 января 2026 г.

question🎬 ВидеоScore: 1.1K

🧠 Бесконечный контекст без дообучения? Встречайте DroPE от Sakana AI Обычно, чтобы заставить LLM работать с длинным контекстом (Long Context), приходится либо использовать методы интерполяции (как YaRN), либо проводить дорогостоящий файн-тюнинг на длинных последовательностях. Ребята из Sakana AI (те самые, что делают Evolution Merging) выпустили новый метод — DroPE (Dropping Positional Embeddings). В чем суть? Авторы заметили парадокс: позиционные эмбеддинги (например, RoPE) критически важны для сходимости во время обучения, но на этапе инференса они становятся бутылочным горлышком, мешающим модели обобщаться на длину, превышающую ту, что была в трейне. Как это работает: 1. Pre-training: Модель учится как обычно с RoPE. 2. Dropping: После обучения позиционные эмбеддинги... просто удаляются. 3. Recalibration: Проводится быстрая и дешевая калибровка на исходной (короткой) длине контекста. Результат: Модель начинает отлично работать с контекстом, который в разы превышает длину обучения (например, 2x и более), при этом не требуя тяжелых вычислений или специализированных архитектур. Почему это круто: ✅ Дешевле: Не нужен дорогой Long-Context Fine-Tuning. ✅ Эффективнее: Работает лучше, чем популярные методы скейлинга типа YaRN или Position Interpolation (PI). ✅ Универсально: Протестировано на Llama-2 и SmolLM. Авторы утверждают, что позиционные эмбеддинги - это как "тренировочные колеса": они нужны, чтобы научиться ездить, но потом только мешают ехать далеко. 📄 Paper: https://pub.sakana.ai/DroPE/ 🔗 Репозиторий: github.com/SakanaAI/DroPE #AI #LLM #SakanaAI #LongContext #Research 👉 @bigdata_1

Другие посты @bigdata_1