788просмотров
4 марта 2026 г.
📷 ФотоScore: 867
Sign-SGD via Parameter-Free Optimization: sign-оптимизация без ручного подбора размера шага Сегодня разбираем статью, прошедшую на ICLR-26 и подготовленную совместно с комадной Yandex Research (исследователи пишут про принятые статьи в канале @MLunderhood). 💡 О чём работа?
Sign-SGD любят за простоту и «дешевую» память: вместо полноценных градиентов можно передавать/хранить только их знаки — удобно и для распределенного обучения, и на одном устройстве. Но у него, как и у других классических оптимизаторов, есть большая практическая боль: эффективный шаг (stepsize) заранее не выбрать, потому что он зависит от неизвестных свойств каждой отдельной задачи — и в итоге всё упирается в тюнинг. ⚠️ Почему это проблема?
В больших моделях, например LLM, подбор learning rate — это не «пара запусков», а полноценный grid search + поиск расписания (schedule), что:
⋅ тратит GPU-часы и деньги;
⋅ делает метод тяжело переносимым между задачами/датасетами. 🎯 Что мы предлагаем?
Мы строим parameter-free Sign-SGD: алгоритм сам подстраивает шаг обучения на каждой итерации, без рестартов и без дополнительного поиска гиперпараметров. Ключевая идея — оценивать глобальные константы задачи, от которых зависит оптимальный шаг (в частности, гладкость и начальное приближение с точки зрения функции), по текущей информации о градиентах. 🧩 Что внутри (если коротко, но по делу):
⋅ ALIAS: алгоритм на основе Sign-SGD с автоматическим выбором шага.
⋅ Сценарии: разобраны детерминированный, стохастический и распределённый алгоритмы для обучения.
⋅ Momentum-вариант (в духе Adam): чтобы подтянуть практическую эффективность, сохранив parameter-free идею.
⋅ Memory-efficient версия: вариант, который хранит только знаки прошлых градиентов для подбора шага и сохраняет адаптивность (важно для памяти).
⋅ Бонус: в экспериментах видно, что с нашим подбором шага автоматически возникает косинусное расписание, без явного cosine scheduler. 📊 Эксперименты
Проверили на задачах, где тюнинг особенно дорог:
⋅ pre-training LLaMA (130M и 350M параметров);
⋅ fine-tuning Swin Transformer (28M параметров).
⋅ другие задачи из бенчмарка AlgoPerf. 🔥 Итог
Наши parameter-free варианты по качеству обучения сопоставимы с “затюнеными” Sign-SGD и AdamW (где lr подбирали через grid search + cosine schedule), и при этом убирают дополнительные расходы на подбор.
Это даёт примерно ~1.5× ускорение end-to-end по сравнению с запусками, где lr подбирают сеткой. ✨ Почему это важно?
⋅ Меньше ручного тюнинга → быстрее обучение на любых задачах
⋅ Sign-оптимизация остается “дешевой” по памяти → меньше затрат на GPU-ресурсы
⋅ Работает в реалистичных режимах → стохастика, распределенка 📎 Статья
💻 Код