G
Greenruff
@greenruff875 подп.
226просмотров
25.8%от подписчиков
23 марта 2026 г.
📷 ФотоScore: 249
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM. И это не “ещё один attention”. Коротко: • убираем глобальный attention • вводим иерархию • меняем геометрию пространства И получаем совсем другую динамику обучения. 👇 🚀 1. Контекстное окно → практически бесконечное В классических моделях: • 8k–32k — нормально • 100k — уже дорого Здесь: • каждый уровень учится функции • 40 уровней ≈ более чем триллионное окно 👉 это не полный attention 👉 это эффективное поле зависимости Без квадратичной сложности Без взрыва памяти ⚡️ 2. Сходимость быстрее (зависит от температуры) Результат на одинаковых данных: • классический transformer → ~10000 примеров • новая архитектура → ~2000 👉 ×5 ускорение Почему? ❌ глобальный attention = все со всеми → шум ✅ иерархия = фильтрация по уровням Верхние уровни больше не “видят мусор”. 🎯 3. Качество выше при тех же параметрах Ключевая проблема LLM: vocab → embedding → FFN При этом: • функция g(x) имеет точки излома • они распределены НЕравномерно А модель использует линейную шкалу. 👉 мы теряем информацию уже на входе Вводим нелинейную геометрию: → логарифмическое преобразование Результат: • больше разрешения там, где есть структура • меньше — где её нет 👉 модель перестаёт усреднять 👉 начинает видеть реальные зависимости 📊 Пример(loss) Глобальный attention: 5.65 → 4.98 → 4.35 Новая архитектура: 4.30 → 2.98 → 1.90 Классический transformer: “свяжем всё со всем и пусть модель разберётся” Новый подход: “построим структуру и уберём шум” 💥 Итог. 3 ключевых эффекта: 📈 Контекст → до триллионов токенов (для современных видеокарт) ⚡️ Обучение → быстрее 🎯 Качество → выше без увеличения модели И это без: - MoE - увеличения параметров - роста вычислений - без голов - без матрицы внимания Если коротко: 👉 Похоже, что дело не в размере модели 👉 а в геометрии и структуре PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
226
просмотров
2057
символов
Да
эмодзи
Да
медиа

Другие посты @greenruff

Все посты канала →
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увел — @greenruff | PostSniper