557просмотров
20 февраля 2026 г.
📷 ФотоScore: 613
UPD: Я погорячился, в оригинальной статье wd не применялся к embeding, Но если к немсу не применять картина получается точно такая же - есть один слой, который экспоненциально падает, и остальные, которые вообще-то растут, и общая динамика зависит от этой комбинации движений, а никакой зоны куда быся сеть сползала не прослеживается. Картина отдельным постом. Кстати, обратите внимание норма model.1 начала быть видимой только после того как гроккинг стал заметен. Интересно.