Свидетели Градиента

@GradientWitnesses💻 Технологии🇷🇺 Русский📅 март 2026 г.

Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах. Для связи: @kraidiky

📊 Полная статистика 📝 Все посты

520

Подписчики

373,357

Ср. охват

71.8%

Вовлечённость

Постов

~0.4

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

14 из 14

GradientWitnesses

20 февр., 22:50

UPD: Я погорячился, в оригинальной статье wd не применялся к embeding, Но если к немсу не применять картина получается точно такая же - есть один слой, который экспоненциально падает, и остальные, которые вообще-то растут, и общая динамика зависит от этой комбинации движений, а никакой зоны куда быся сеть сползала не прослеживается. Картина отдельным постом. Кстати, обратите внимание норма model.1 начала быть видимой только после того как гроккинг стал заметен. Интересно.

👁 557📷 photo

📊 Аналитика

GradientWitnesses

24 февр., 07:16

Шитпостинг, конечно, но отражающий глубинные и сложные чувства... Подводных камней в этом деле целая гора, но с другой стороны x5 примерно вырисовывается. Осталось понять какие из проектов не жалко...

👁 481

📊 Аналитика

GradientWitnesses

1 мар., 10:22

Почти год назад @import_sklearn навёл меня на статью https://www.arxiv.org/abs/2504.13292, где начало гроккинга ускоряют обучив сначала мелкую модель, а потом её слой эмбединга передают через случайную проекцию большой модели. И вот наконец я сподобился её воспроизвести. В работе обнаружился подводный камень. Во-первых, они предлагают заменять слой на два умножения. Вместо этого можно умножить их и отдать только веса, в этом случае впереди окажется большая но низкоранговая матрица, но и это не д...

👁 471

📊 Аналитика

GradientWitnesses

24 февр., 07:16

Коротко как провел выходные

👁 454📷 photo

📊 Аналитика

GradientWitnesses

20 февр., 11:55

Касательно воспроизведения разных статей, и в частности гипотезы златовласки, говорящей, что для гроккинга норма весов сети должна упасть в особую зону. Стоит посмотреть нормы весов по отдельным слоям, и сразу становится видно, что в большинстве слоёв норма либо падает не ощутимо либо, вообще растёт, а нормы первого слоя эмбедингов падают монотонно и до гроккинга и во время и, после, экспоненциально с постоянной скоростью определяемой weight-decay. и если смотреть на графике с линейными осями и ...

👁 446📷 photo

📊 Аналитика

GradientWitnesses

7 мар., 05:40

https://youtube.com/shorts/EmBgVx6jYBg?is=M03FVtMAvQ6IWqYq Потому что мозг получает награду не за предсказание разметки, а за предсказывание наблюдаемого будущего, причем не любого, а того, которое воспринимается как новое или необычное. Не просто Некст токен, а баланс изучение-использование, критерий новизны и предсказание последствий своих действий на следующем этапе, примерно через пол года после рождения. Я вот давно с этой идеей ношусь. Дробышевский одобряет! :))

👁 422

📊 Аналитика

GradientWitnesses

15 мар., 13:28

Последний месяц я интенсивно осваиваю кодирование на Claude Code, врчуную в код не вмешиваюсь даже для простых однострочных исправлений. Ну так вот, есть такая идея - нормировать все выходы матрицы на 1, ну или все выходы какой-нибудь L2 или L1 нормой. Я её подглядел у Ветрова в его докладе про гроккинг, они такое с сетками на CIFAR10 делали, и я некоторое время вынашивал мысль такое тоже попробовать. Перед реализацией послал агента поискать связанные статьи. Он нашёл работу nvidia-вцев nGPT: No...

👁 388📷 photo

📊 Аналитика

GradientWitnesses

16 февр., 10:33

Оказывается kagi assistant я использовал в режиме Quick, Переключаемся в режим Research Experimental и вот уэе результат начинает играть совсем новыми красками. Сделан подробный анализ связанных работ, никто не потерялся. В цитировании одной из них найден недочёт, причём не в тех, для которых недочёты находил Квен, на второй уточняющий промпт привел цитаты, единственно что - не съакцентировался на там что эти цитаты правомочны при определённыхз условиях. В таком варианте kagi assistant начинает ...

👁 350

📊 Аналитика

GradientWitnesses

16 мар., 12:46

Щаз будет пост академической честности. :( Буквально проверил, какие сиды из val проходят в acc на val и есть ли в трейне их симметричный пример, и выяснилось, что симметрия на влияет, на гроккинг, до сетки не допирает, а влияет только размер доступного датасета, уменьшаете датасет вдвое приготовтесь втрое больше ждать. Клод всё ещё неправ, глядя на очевидные графики стаблилизации, он говорит, что может если ещё подождать, всё наладится, и может гроккинг будет, но и я оказался неправ. А огромное...

👁 338

📊 Аналитика

GradientWitnesses

14 мар., 18:45

Провел интереснейший эксперимент над гроккингом с помощью Claude Code, и сделал из них парочку крутых выводов, один из которых готов рассказать прямо тут не дожидаясь датафеста. А интересно в этой истории то, что ни один из выводов, которые я сделал Клод сделать не смог, хотя смотрел на те же картинки что и я. И я его специально просил предположить в чём же дело, и почему в картинках возникает такой парадокс. Всё это говорит, что пока перспективы у автоматического ресёрча были бы не особо блестя...

👁 317

📊 Аналитика

Типы хуков

Нейтральный12 | 387 просм.

Вопрос1 | 422 просм.

Провокация1 | 162 просм.

Длина постов

Средние (200-500)6 | 359 просм.

Очень длинные (1000+)4 | 404 просм.

Длинные (500-1000)3 | 335 просм.

Короткие (<200)1 | 454 просм.

Типы контента

📷

photo

412 просм.

📝

text

352 просм.

✅ 95/100

Активность естественная

#8197

из 13,310 в Технологии