С
Свидетели Градиента
@GradientWitnesses520 подп.
446просмотров
85.8%от подписчиков
20 февраля 2026 г.
📷 ФотоScore: 491
Касательно воспроизведения разных статей, и в частности гипотезы златовласки, говорящей, что для гроккинга норма весов сети должна упасть в особую зону. Стоит посмотреть нормы весов по отдельным слоям, и сразу становится видно, что в большинстве слоёв норма либо падает не ощутимо либо, вообще растёт, а нормы первого слоя эмбедингов падают монотонно и до гроккинга и во время и, после, экспоненциально с постоянной скоростью определяемой weight-decay. и если смотреть на графике с линейными осями и в смеси с другими слоями, то можно просто непраавильно это интерпретировать. На этом одну из популярных гипотез можно вычёркиваь. При наличии бейзлайна эксперимент аннулирующий популярную работу с 270 цитат на google scholar занял меньше часа. UPD: Я погорячился, в оригинальной статье wd не применялся к embeding, Но если к немсу не применять картина получается точно такая же - есть один слой, который экспоненциально падает, и остальные, которые вообще-то растут, и общая динамика зависит от этой комбинации движений, а никакой зоны куда быся сеть сползала не прослеживается. Картина отдельным постом.
446
просмотров
1106
символов
Нет
эмодзи
Да
медиа

Другие посты @GradientWitnesses

Все посты канала →
Касательно воспроизведения разных статей, и в частности гипо — @GradientWitnesses | PostSniper