А
Адель и МЛь
@adel_and_ml3.1K подп.
2.7Kпросмотров
86.4%от подписчиков
16 марта 2026 г.
Score: 2.9K
Прикольное от Kimi - attention по слоям. Обычный self-attention работает по токенам, а здесь слой выбирает, какие более ранние представления уже по глубине взять сильнее, а какие слабее. Авторы описывают это как замену обычных residual connections: вместо фиксированного суммирования прошлых выходов используется softmax-attention по выходам с предыдущих слоев. Что-то близкое по духу было, когда предложили DenseNet, как альтернативу Resnet (правда там без взвешивания, а просто всё соединяется со всем). На маленькой Kimi Linear (48B 3B active) такой подход дал прирост 1.25х в компьюте при обучении, небольшой прирост в бенчах и чуточку увеличил время инференса. https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
2.7K
просмотров
760
символов
Нет
эмодзи
Нет
медиа

Другие посты @adel_and_ml

Все посты канала →
Прикольное от Kimi - attention по слоям. Обычный self-attent — @adel_and_ml | PostSniper