Сверточные нейросети догнали трансформеры на больших данных — @everydaycv

1.6Kпросмотров

26 октября 2023 г.

📷 ФотоScore: 1.8K

Сверточные нейросети догнали трансформеры на больших данных Долгое время бытовало мнение, что трансформеры лучше масштабируются и превосходят сверточные сети при обучении на огромных наборах данных из интернета. Однако недавнее исследование опровергает это убеждение. Ученые обучали мощные сверточные модели семейства NFNet на наборе данных JFT-4B, содержащем 4 миллиарда изображений. Бюджет обучения варьировался от 400 до 110 000 часов на TPU v4. Чем больше вычислительных ресурсов тратилось, тем лучше работали модели. После дополнительного обучения на ImageNet лучшая модель достигла точности 90.4%, что сопоставимо с результатами трансформеров при аналогичных вычислительных затратах. Ключевыми факторами остаются объем данных и вычислительная мощность. Результаты ставят под сомнение распространенное мнение о превосходстве трансформеров. В будущем важно проводить честное сравнение архитектур с учетом одинаковых вычислительных затрат на обучение. 🖥 Статья

Другие посты @everydaycv