Sign-SGD via Parameter-Free Optimization: sign-оптимизация б — @brainlaboratory

788просмотров

4 марта 2026 г.

📷 ФотоScore: 867

Sign-SGD via Parameter-Free Optimization: sign-оптимизация без ручного подбора размера шага Сегодня разбираем статью, прошедшую на ICLR-26 и подготовленную совместно с комадной Yandex Research (исследователи пишут про принятые статьи в канале @MLunderhood). 💡 О чём работа? Sign-SGD любят за простоту и «дешевую» память: вместо полноценных градиентов можно передавать/хранить только их знаки — удобно и для распределенного обучения, и на одном устройстве. Но у него, как и у других классических оптимизаторов, есть большая практическая боль: эффективный шаг (stepsize) заранее не выбрать, потому что он зависит от неизвестных свойств каждой отдельной задачи — и в итоге всё упирается в тюнинг. ⚠️ Почему это проблема? В больших моделях, например LLM, подбор learning rate — это не «пара запусков», а полноценный grid search + поиск расписания (schedule), что: ⋅ тратит GPU-часы и деньги; ⋅ делает метод тяжело переносимым между задачами/датасетами. 🎯 Что мы предлагаем? Мы строим parameter-free Sign-SGD: алгоритм сам подстраивает шаг обучения на каждой итерации, без рестартов и без дополнительного поиска гиперпараметров. Ключевая идея — оценивать глобальные константы задачи, от которых зависит оптимальный шаг (в частности, гладкость и начальное приближение с точки зрения функции), по текущей информации о градиентах. 🧩 Что внутри (если коротко, но по делу): ⋅ ALIAS: алгоритм на основе Sign-SGD с автоматическим выбором шага. ⋅ Сценарии: разобраны детерминированный, стохастический и распределённый алгоритмы для обучения. ⋅ Momentum-вариант (в духе Adam): чтобы подтянуть практическую эффективность, сохранив parameter-free идею. ⋅ Memory-efficient версия: вариант, который хранит только знаки прошлых градиентов для подбора шага и сохраняет адаптивность (важно для памяти). ⋅ Бонус: в экспериментах видно, что с нашим подбором шага автоматически возникает косинусное расписание, без явного cosine scheduler. 📊 Эксперименты Проверили на задачах, где тюнинг особенно дорог: ⋅ pre-training LLaMA (130M и 350M параметров); ⋅ fine-tuning Swin Transformer (28M параметров).  ⋅ другие задачи из бенчмарка AlgoPerf. 🔥 Итог Наши parameter-free варианты по качеству обучения сопоставимы с “затюнеными” Sign-SGD и AdamW (где lr подбирали через grid search + cosine schedule), и при этом убирают дополнительные расходы на подбор. Это даёт примерно ~1.5× ускорение end-to-end по сравнению с запусками, где lr подбирают сеткой. ✨ Почему это важно? ⋅ Меньше ручного тюнинга → быстрее обучение на любых задачах ⋅ Sign-оптимизация остается “дешевой” по памяти → меньше затрат на GPU-ресурсы ⋅ Работает в реалистичных режимах → стохастика, распределенка 📎 Статья 💻 Код

Другие посты @brainlaboratory