M
ML-легушька
@BDataScienceM3.6K подп.
3.3Kпросмотров
92.4%от подписчиков
18 февраля 2026 г.
📷 ФотоScore: 3.6K
Очень странная статья от Google. Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации. Они также привели некие доказательства сходимости своего метода. В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного. В чем проблема данной статьи, на мой взгляд? Мне кажется, что авторы зашли не с того угла. Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого. Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше. В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье. Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров. Не знаю, может написать им, спросить? Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :) Ссылка на статью
3.3K
просмотров
1704
символов
Нет
эмодзи
Да
медиа

Другие посты @BDataScienceM

Все посты канала →
Очень странная статья от Google. Основная идея: давайте случ — @BDataScienceM | PostSniper