G
Greenruff
@greenruff875 подп.
168просмотров
19.2%от подписчиков
26 марта 2026 г.
📷 ФотоScore: 185
В прошлом посте я написал, что удалось: — уменьшить сложность внимания — ускорить сходимость — и улучшить качество Но объяснение получилось сумбурным. Попробую объяснить проще. 📌 Ключевая идея Классический механизм внимания решает задачу в лоб: он сравнивает каждый токен с каждым → получаем квадратичную сложность (O(n^2)) Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона 🧠 Что изменилось в науке Потом появился Коперник → Кеплер → Ньютон И вместо: “давайте хранить все наблюдения” мы получили: “давайте опишем закон” движение планет → формула И больше не нужно хранить всё — можно вычислять ⚙️ То же самое происходит с attention Классический attention: “сравни всё со всем и запомни результат” Это буквально те же “таблицы майя”, только в матричном виде. 🔬 В чем тогда разница? Я не считаю все попарные зависимости. Я моделирую сам закон зависимости: p(d) ~ sum ( exp( -λ · d) ) где (d) — расстояние между токенами Вместо: “сравнить каждую пару токенов” мы говорим: “зависимость убывает с расстоянием по определённой форме” И учим эту форму, а не все значения. 🔺 Почему это важно Реальные данные имеют локальные максимумы зависимостей: — ближайший контекст — уровень фраз — дальние зависимости Классический attention: → не знает их форму → пытается их угадать Моя модель: → задаёт правильную форму напрямую → и учит параметры Именно это и даёт нам: — сложность ≈ линейная — быстрее сходимость — лучше качество — лучше масштабирование на длинные последовательности 📊 По сути Мы сделали то же самое, что Кеплер сделал для астрономии: перешли от: хранения всех наблюдений к: параметрической модели закона 📚 Теория Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны. Но без них сложно понять, почему это вообще работает. Поэтому выкладываю часть уже сейчас: https://disk.yandex.ru/d/HOBD_pfp_Tae3g (скармливать LLM последовательно: step1 → step2 → step3....) Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают: — механизм внимания — происхождение softmax — роль голов — и связь с теорией информации Важно: это не “ещё одна архитектура” Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
168
просмотров
2362
символов
Да
эмодзи
Да
медиа

Другие посты @greenruff

Все посты канала →
В прошлом посте я написал, что удалось: — уменьшить сложност — @greenruff | PostSniper