ССвидетели Градиента

Свидетели Градиента

@GradientWitnesses💻 Технологии🇷🇺 Русский📅 март 2026 г.

Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах. Для связи: @kraidiky

📊 Полная статистика📝 Все посты
520
Подписчики
373,357
Ср. охват
71.8%
Вовлечённость
14
Постов
~0.4
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

14 из 14
GGradientWitnesses
GradientWitnesses
20 февр., 22:50

UPD: Я погорячился, в оригинальной статье wd не применялся к embeding, Но если к немсу не применять картина получается точно такая же - есть один слой, который экспоненциально падает, и остальные, которые вообще-то растут, и общая динамика зависит от этой комбинации движений, а никакой зоны куда быся сеть сползала не прослеживается. Картина отдельным постом. Кстати, обратите внимание норма model.1 начала быть видимой только после того как гроккинг стал заметен. Интересно.

👁 557📷 photo
GGradientWitnesses
GradientWitnesses
24 февр., 07:16

Шитпостинг, конечно, но отражающий глубинные и сложные чувства... Подводных камней в этом деле целая гора, но с другой стороны x5 примерно вырисовывается. Осталось понять какие из проектов не жалко...

👁 481
GGradientWitnesses
GradientWitnesses
1 мар., 10:22

Почти год назад @import_sklearn навёл меня на статью https://www.arxiv.org/abs/2504.13292, где начало гроккинга ускоряют обучив сначала мелкую модель, а потом её слой эмбединга передают через случайную проекцию большой модели. И вот наконец я сподобился её воспроизвести. В работе обнаружился подводный камень. Во-первых, они предлагают заменять слой на два умножения. Вместо этого можно умножить их и отдать только веса, в этом случае впереди окажется большая но низкоранговая матрица, но и это не д...

👁 471
GGradientWitnesses
GradientWitnesses
24 февр., 07:16

Коротко как провел выходные

👁 454📷 photo
GGradientWitnesses
GradientWitnesses
20 февр., 11:55

Касательно воспроизведения разных статей, и в частности гипотезы златовласки, говорящей, что для гроккинга норма весов сети должна упасть в особую зону. Стоит посмотреть нормы весов по отдельным слоям, и сразу становится видно, что в большинстве слоёв норма либо падает не ощутимо либо, вообще растёт, а нормы первого слоя эмбедингов падают монотонно и до гроккинга и во время и, после, экспоненциально с постоянной скоростью определяемой weight-decay. и если смотреть на графике с линейными осями и ...

👁 446📷 photo
GGradientWitnesses
GradientWitnesses
7 мар., 05:40

https://youtube.com/shorts/EmBgVx6jYBg?is=M03FVtMAvQ6IWqYq Потому что мозг получает награду не за предсказание разметки, а за предсказывание наблюдаемого будущего, причем не любого, а того, которое воспринимается как новое или необычное. Не просто Некст токен, а баланс изучение-использование, критерий новизны и предсказание последствий своих действий на следующем этапе, примерно через пол года после рождения. Я вот давно с этой идеей ношусь. Дробышевский одобряет! :))

👁 422
GGradientWitnesses
GradientWitnesses
15 мар., 13:28

Последний месяц я интенсивно осваиваю кодирование на Claude Code, врчуную в код не вмешиваюсь даже для простых однострочных исправлений. Ну так вот, есть такая идея - нормировать все выходы матрицы на 1, ну или все выходы какой-нибудь L2 или L1 нормой. Я её подглядел у Ветрова в его докладе про гроккинг, они такое с сетками на CIFAR10 делали, и я некоторое время вынашивал мысль такое тоже попробовать. Перед реализацией послал агента поискать связанные статьи. Он нашёл работу nvidia-вцев nGPT: No...

👁 388📷 photo
GGradientWitnesses
GradientWitnesses
16 февр., 10:33

Оказывается kagi assistant я использовал в режиме Quick, Переключаемся в режим Research Experimental и вот уэе результат начинает играть совсем новыми красками. Сделан подробный анализ связанных работ, никто не потерялся. В цитировании одной из них найден недочёт, причём не в тех, для которых недочёты находил Квен, на второй уточняющий промпт привел цитаты, единственно что - не съакцентировался на там что эти цитаты правомочны при определённыхз условиях. В таком варианте kagi assistant начинает ...

👁 350
GGradientWitnesses
GradientWitnesses
16 мар., 12:46

Щаз будет пост академической честности. :( Буквально проверил, какие сиды из val проходят в acc на val и есть ли в трейне их симметричный пример, и выяснилось, что симметрия на влияет, на гроккинг, до сетки не допирает, а влияет только размер доступного датасета, уменьшаете датасет вдвое приготовтесь втрое больше ждать. Клод всё ещё неправ, глядя на очевидные графики стаблилизации, он говорит, что может если ещё подождать, всё наладится, и может гроккинг будет, но и я оказался неправ. А огромное...

👁 338
GGradientWitnesses
GradientWitnesses
14 мар., 18:45

Провел интереснейший эксперимент над гроккингом с помощью Claude Code, и сделал из них парочку крутых выводов, один из которых готов рассказать прямо тут не дожидаясь датафеста. А интересно в этой истории то, что ни один из выводов, которые я сделал Клод сделать не смог, хотя смотрел на те же картинки что и я. И я его специально просил предположить в чём же дело, и почему в картинках возникает такой парадокс. Всё это говорит, что пока перспективы у автоматического ресёрча были бы не особо блестя...

👁 317

Типы хуков

Нейтральный12 | 387 просм.
Вопрос1 | 422 просм.
Провокация1 | 162 просм.

Длина постов

Средние (200-500)6 | 359 просм.
Очень длинные (1000+)4 | 404 просм.
Длинные (500-1000)3 | 335 просм.
Короткие (<200)1 | 454 просм.

Типы контента

📷
5
photo
412 просм.
📝
9
text
352 просм.
Свидетели Градиента (@GradientWitnesses) — Telegram-канал | PostSniper