✍️ Когда нейросеть обучают одновременно решать несколько зад — @invproorg

17просмотров

37.8%от подписчиков

24 марта 2026 г.

📷 ФотоScore: 19

✍️ Когда нейросеть обучают одновременно решать несколько задач — например, классифицировать объекты на изображении и восстанавливать их контуры — градиенты (сигналы, указывающие, в какую сторону нужно менять веса модели) могут вступать в противоречие. Один градиент тянет веса в свою сторону, другой — в противоположную. Это явление называется конфликтом градиентов и приводит к тому, что модель хуже обучается по всем задачам сразу. Существующие методы решения этой проблемы — PCGrad, CAGrad, GradNorm, GradDrop пытаются решить конфликт «в лоб»: они попарно сравнивают градиенты на каждом шаге и пытаются их выровнять. Это не только требует больших вычислительных ресурсов, но и часто приводит к избыточной коррекции — методы либо слишком сильно подавляют сигнал, либо создают хаотичные колебания весов. ➡️ В статье, опубликованной в IEEE Access, группа исследователей предлагает метод Gradient Conductor (GCond), который решает проблему принципиально иначе. Среди авторов статьи - исследователи Центра ИИ Сколтеха: младший научный сотрудник лаборатории надежного, адаптивного и доверительного искусственного интеллекта Анастасия Студеникина, руководитель группы по компьютерному зрению Светлана Илларионова и старший преподаватель, руководитель совместной с Университетом Шарджи Лаборатории ИИ в биомедицинских исследованиях (BIMAI-Lab) Максим Шараев. ✅ Вместо немедленного разрешения конфликтов на каждом шаге GCond накапливает градиенты за несколько итераций, усредняя их для подавления шума, затем принимает решение о коррекции. Для разрешения конфликтов используется адаптивный арбитраж: оценивается степень противоречия градиентов, затем в зависимости от нее выбирается стратегия — от невмешательства до выбора «победителя» по стабильности направления и силе градиента. При этом метод предотвращает длительное доминирование одной задачи. Стохастический режим (последовательный сбор градиентов на разных блоках данных) дает двукратное ускорение без потери качества. 👀 Эксперименты проводились на двух типах данных. Классический ImageNet (более миллиона изображений) и медицинские КТ-срезы головы и шеи (2,2 миллиона файлов из трех публичных баз данных) с архитектурами от MobileNet до ConvNeXtV2. Модель одновременно решала задачи реконструкции и классификации в специально обостренных конфликтных условиях. На ImageNet GCond снизил ошибки реконструкции на четверть, точность классификации выросла на 4,5%. PCGrad и CAGrad в оригинальной реализации не смогли запуститься на ConvNeXtV2-Base даже с одним изображением за шаг — не хватило памяти. GCond благодаря своей архитектуре смог обрабатывать до 70 изображений одновременно. Метод также протестировали с разными оптимизаторами — AdamW и гибридом Lion/LARS. Выяснилось, что лучше всего GCond работает в связке, когда он берет на себя согласование направлений, а оптимизатор отвечает только за масштаб шага. Такая синергия позволяет избежать переобучения и делает процесс сходимости намного стабильнее. В GCond мы перестали пытаться "задавить" конфликты силой и решили научить задачи договариваться. Суть метода в четком разделении ролей: GCond ювелирно рулит направлениями, а оптимизатор спокойно подбирает скорость шага. В итоге мы получаем сбалансированную командную работу, где задачи не тянут модель в разные стороны, - объясняет Анастасия Студеникина. 📖 Существующие методы коррекции градиентов создают побочные эффекты: PCGrad и GradDrop вызывают сильные колебания градиентов, CAGrad слишком подавляет их, GradNorm шумит при перенастройке весов. GCond ведет себя иначе - быстро гасит острые конфликты на старте, большую часть обучения не вмешивается (градиенты уже согласованы) и подключается только в конце для тонкой донастройки. GCond реализован для PyTorch, встраивается в существующие пайплайны минимальными правками, код открыт, архитектурных изменений не требует, совместим с основными оптимизаторами. Для тех, кто обучает большие мультизадачные модели и упирается в ограничения памяти или качества, метод является рабочи

Другие посты @invproorg