168просмотров
19.2%от подписчиков
26 марта 2026 г.
📷 ФотоScore: 185
В прошлом посте я написал, что удалось:
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество Но объяснение получилось сумбурным. Попробую объяснить проще. 📌 Ключевая идея Классический механизм внимания решает задачу в лоб: он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2)) Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона 🧠 Что изменилось в науке Потом появился Коперник → Кеплер → Ньютон И вместо: “давайте хранить все наблюдения” мы получили: “давайте опишем закон” движение планет → формула
И больше не нужно хранить всё — можно вычислять ⚙️ То же самое происходит с attention Классический attention: “сравни всё со всем и запомни результат” Это буквально те же “таблицы майя”, только в матричном виде. 🔬 В чем тогда разница? Я не считаю все попарные зависимости. Я моделирую сам закон зависимости: p(d) ~ sum ( exp( -λ · d) )
где (d) — расстояние между токенами Вместо: “сравнить каждую пару токенов” мы говорим: “зависимость убывает с расстоянием по определённой форме” И учим эту форму, а не все значения. 🔺 Почему это важно Реальные данные имеют локальные максимумы зависимостей: — ближайший контекст
— уровень фраз
— дальние зависимости Классический attention:
→ не знает их форму
→ пытается их угадать Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности 📊 По сути Мы сделали то же самое, что Кеплер сделал для астрономии: перешли от:
хранения всех наблюдений к:
параметрической модели закона 📚 Теория Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны. Но без них сложно понять, почему это вообще работает. Поэтому выкладываю часть уже сейчас: https://disk.yandex.ru/d/HOBD_pfp_Tae3g (скармливать LLM последовательно: step1 → step2 → step3....) Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают: — механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации Важно: это не “ещё одна архитектура” Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.