Прикольное от Kimi - attention по слоям. Обычный self-attent — @adel_and_ml

2.7Kпросмотров

86.4%от подписчиков

16 марта 2026 г.

Score: 2.9K

Прикольное от Kimi - attention по слоям. Обычный self-attention работает по токенам, а здесь слой выбирает, какие более ранние представления уже по глубине взять сильнее, а какие слабее. Авторы описывают это как замену обычных residual connections: вместо фиксированного суммирования прошлых выходов используется softmax-attention по выходам с предыдущих слоев. Что-то близкое по духу было, когда предложили DenseNet, как альтернативу Resnet (правда там без взвешивания, а просто всё соединяется со всем). На маленькой Kimi Linear (48B 3B active) такой подход дал прирост 1.25х в компьюте при обучении, небольшой прирост в бенчах и чуточку увеличил время инференса. https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

Другие посты @adel_and_ml