Статьи Yandex Research на грядущей ICLR — 1/2 Интересный фак — @MLunderhood

1.3Kпросмотров

35.5%от подписчиков

19 февраля 2026 г.

Score: 1.5K

Статьи Yandex Research на грядущей ICLR — 1/2 Интересный факт: в фильме «Бразилия» не очень-то много о Бразилии. Зато о ней будет в нашем канале, когда мы возьмёмся освещать конференцию ICLR 2026. Она пройдёт уже в апреле в Рио-де-Жанейро. Туда отправляются исследователи Yandex Research — и не с пустыми руками, а с целой пачкой в шесть статей. Сперва расскажем о первых трёх. Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization Авторы статьи — Денис Кузнеделев из Yandex Research и коллеги из ISTA, Red Hat AI и ETH Zürich. Они детально изучили представленные компанией NVIDIA форматы хранения весов и активаций (MXFP4, NVFP4) для квантования после обучения, чтобы понять, насколько заявленные преимущества соответствуют реальной производительности. Анализ показал, что современные методы сталкиваются с трудностями при работе с FP4. Причины: — привычные способы борьбы с выбросами (нетипичными значениями) не работают; — при квантовании MXFP4 возникает ошибка. В работе предложена улучшенная версия алгоритма квантования GPTQ. Она учитывает особенности FP4 и заметно повышает точность по сравнению с предыдущими методами. Кроме того, разработаны быстрые ядра для инференса. Scale-wise Distillation of Diffusion Models А это статья уже полностью от Yandex Research — Никиты Стародубцева, Дениса Кузнеделева, Артёма Бабенко и Дмитрия Баранчука. Авторы предлагают новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому. Это позволяет добиться более высокого качества, чем во время генерации с фиксированным разрешением при том же вычислительном бюджете. Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization Авторы статьи — Екатерина Бородич и Дмитрий Ковалев из Yandex Research — разработали ускоренный по Нестерову и не требующий подбора гиперпараметров градиентный метод, который автоматически адаптирует размер шага к локальной кривизне целевой функции с линейной (геометрической) скоростью. Эффективность алгоритма подтвердили, доказав, что он даёт оптимальную скорость сходимости для выпуклых задач оптимизации в условиях обобщенной гладкости. #YaICLR26 ML Underhood

Другие посты @MLunderhood