226просмотров
25.8%от подписчиков
23 марта 2026 г.
📷 ФотоScore: 249
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM. И это не “ещё один attention”. Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства И получаем совсем другую динамику обучения. 👇 🚀 1. Контекстное окно → практически бесконечное В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно 👉 это не полный attention
👉 это эффективное поле зависимости Без квадратичной сложности
Без взрыва памяти ⚡️ 2. Сходимость быстрее (зависит от температуры) Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000 👉 ×5 ускорение Почему?
❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням
Верхние уровни больше не “видят мусор”. 🎯 3. Качество выше при тех же параметрах Ключевая проблема LLM: vocab → embedding → FFN При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу. 👉 мы теряем информацию уже на входе Вводим нелинейную геометрию: → логарифмическое преобразование Результат:
• больше разрешения там, где есть структура
• меньше — где её нет 👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости 📊 Пример(loss) Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90 Классический transformer:
“свяжем всё со всем и пусть модель разберётся” Новый подход:
“построим структуру и уберём шум” 💥 Итог. 3 ключевых эффекта:
📈 Контекст → до триллионов токенов (для современных видеокарт) ⚡️ Обучение → быстрее 🎯 Качество → выше без увеличения модели
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.