309просмотров
15 февраля 2026 г.
📷 ФотоScore: 340
В продолжение предыдущего поста, про статистику в современном мире. Недавно в универе Квебека показали, что обычный метод наименьших квадратов (OLS) математически полностью эквивалентен упрощенному механизму внимания из трансформеров если softmax заменить на линейную функцию. То, что в Attention называется Query, оказывается просто линейной проекцией ваших тестовых данных (для которых ищем ответ) в новое пространство, Key - проекция обучающей выборки в это же пространство. Считаем их скалярную близость, используем её как веса для таргетов обучающей выборки (Value) и всё! Практической пользы ноль, зато педагогическая ценность 10/10. Attention - не какая-то магия, а классическая статистика и взвешивание по сходству (как в OLS/Ridge) на стероидах.