С
Свидетели Градиента
@GradientWitnesses520 подп.
471просмотров
90.6%от подписчиков
1 марта 2026 г.
Score: 518
Почти год назад @import_sklearn навёл меня на статью https://www.arxiv.org/abs/2504.13292, где начало гроккинга ускоряют обучив сначала мелкую модель, а потом её слой эмбединга передают через случайную проекцию большой модели. И вот наконец я сподобился её воспроизвести. В работе обнаружился подводный камень. Во-первых, они предлагают заменять слой на два умножения. Вместо этого можно умножить их и отдать только веса, в этом случае впереди окажется большая но низкоранговая матрица, но и это не до конца спасает положение. Низкий ранг первого слоя сильно мешает обучению на последних этапах. То есть начало гроккинга ускоряется, но конец замедляется. Но если побороть эту низкоранговость, то да, имеем способ реально ускорять начало гроккинга. Идею победы над низким рангом тут не рассказываю, она не моя, и врядли кто-то бкдет повторять это исследование, но по крайней мере теперь вы знаете, что даже в такой зыбкой форме передача информации из маленкой модели в большую ускоряет обобщения, и теперь вы знаете, что это создаёт на входе бутылочное горлышко низкого ранга, и если вы его преодолеете своим способом, коих много, то это не проблема.
471
просмотров
1149
символов
Нет
эмодзи
Нет
медиа

Другие посты @GradientWitnesses

Все посты канала →
Почти год назад @import_sklearn навёл меня на статью https:/ — @GradientWitnesses | PostSniper