1.6Kпросмотров
26 октября 2023 г.
📷 ФотоScore: 1.8K
Сверточные нейросети догнали трансформеры на больших данных Долгое время бытовало мнение, что трансформеры лучше масштабируются и превосходят сверточные сети при обучении на огромных наборах данных из интернета. Однако недавнее исследование опровергает это убеждение. Ученые обучали мощные сверточные модели семейства NFNet на наборе данных JFT-4B, содержащем 4 миллиарда изображений. Бюджет обучения варьировался от 400 до 110 000 часов на TPU v4. Чем больше вычислительных ресурсов тратилось, тем лучше работали модели. После дополнительного обучения на ImageNet лучшая модель достигла точности 90.4%, что сопоставимо с результатами трансформеров при аналогичных вычислительных затратах. Ключевыми факторами остаются объем данных и вычислительная мощность. Результаты ставят под сомнение распространенное мнение о превосходстве трансформеров. В будущем важно проводить честное сравнение архитектур с учетом одинаковых вычислительных затрат на обучение. 🖥 Статья
1.6K
просмотров
968
символов
Нет
эмодзи
Да
медиа

Другие посты @everydaycv

Все посты канала →
Сверточные нейросети догнали трансформеры на больших данных — @everydaycv | PostSniper