📏 Исследователи Центра ИИ Сколтеха нашли способ радикально — @AI_point_of_view

321просмотров

7.9%от подписчиков

27 марта 2026 г.

📷 ФотоScore: 353

📏 Исследователи Центра ИИ Сколтеха нашли способ радикально ускорить дообучение больших языковых моделей — результаты работы, принятой на EACL 2026, описаны в статье "Ускорение обратного распространения в линейных слоях трансформерных моделей на основе структуры градиентов" (Acceleration of Backpropagation in Linear Layers of Transformer Models Based on Gradient Structure). 📤 Среди авторов статьи исследователи Центра ИИ Сколтеха - аспирант, стажер-исследователь Дмитрий Топчий, профессор Сколтеха, руководитель Лаборатории обработки естественного языка, руководитель группы «Вычислительная семантика» в AIRI Александр Панченко, выпускница аспирантуры и старший научный сотрудник в AIRI Виктория Чекалина. Дообучение Transformer-моделей ограничено вычислительной сложностью обратного прохода в линейных слоях, поскольку именно на этот этап приходится основной объём матричных умножений. ➡️ Большинство NLP-бенчмарков — от наборов задач GLUE до диалоговых систем и тестов на логическое рассуждение — ориентированы на короткие последовательности, которые выравниваются с помощью padding-токенов до фиксированной длины контекстного окна. Паддинг приводит к значительному объёму избыточных вычислений: градиенты, соответствующие padding-токенам, равны нулю, однако они по-прежнему участвуют в умножении на матрицы весов. Библиотеки вроде DeepSpeed ускоряют работу, но ценой существенного роста потребления памяти (оффлоад состояний, дополнительные буферы). Авторы предложили SEBP (Sparsity-Exploiting Backward Pass) — метод, который: ✔️ Анализ структуры градиентов показывает, что при обработке коротких входных последовательностей градиенты активаций в линейных слоях становятся разреженными: они содержат значительное количество нулевых элементов, в то время как ненулевые значения локализуются в конкретных строках. ✔️ Не модифицирует веса модели, не удаляет слои и не изменяет прямой проход, вместо этого выполняет отбор только значимых строк градиентов — с наибольшей нормой, соответствующих реальным (не padding) токенам. ✔️ Превращает большое разреженное умножение в компактное плотное — с помощью кастомного Triton-ядра, которое не создаёт дополнительной памяти. Результат - двукратное ускорение дообучения LLM на типичных задачах без лишних затрат памяти. ◾️ BERT-base на GLUE → ускорение backward pass до 2.15x → память — без изменений ◾️ LLaMA 3.2 3B на бенчмарках оценки способностей к рассуждению → ускорение backward pass до 2.08x → оверхед по памяти всего 0.37 ГБ (исходно 26 ГБ) Почему это важно? DeepSpeed обеспечивает более высокую скорость обучения, однако требует значительного увеличения объёма видеопамяти и отличается более сложным развёртыванием. ◾️SEBP предлагает принципиально иной подход: — не увеличивает потребление памяти; — не требует распределённого обучения; — не модифицирует оптимизатор и не вмешивается в прямой проход; — работает «из коробки» — достаточно подменить autograd.Function. Это делает SEBP идеальным кандидатом для дообучения на одном устройстве: ноутбук, edge-девайс, GPU с ограниченной памятью. Там, где нет кластера, но нужно быстро адаптировать модель под пользовательские данные. ✔️ Канал Центра ИИ ВКонтакте

Другие посты @AI_point_of_view