Как «пэт-проект» YOLO стал стандартом CV. Разбор v1–v3 Запус — @mltochka

3.9Kпросмотров

90.8%от подписчиков

30 января 2026 г.

Score: 4.3K

Как «пэт-проект» YOLO стал стандартом CV. Разбор v1–v3 Запускаем серию постов об эволюции одной из самых популярных архитектур в компьютерном зрении. Разберём: 👾 Как YOLO стала стандартом в мире детекций. 👾 Как она принесла своему автору премию Google за прорыв в ML. 👾 Чему может научить история развития YOLO. 👾 Почему стоит интегрировать этот метод в свои проекты. До 2015 года задача детекции решалась с помощью поиска наиболее вероятных регионов. Были двухэтапные подходы, такие как Faster R-CNN. Они действовали по схеме: 📝 Сначала искали регионы-кандидаты, а после использовали refine-процесс для уточнения классов и координат. Проблема: процесс шёл очень медленно. Представьте задачу: отследить теннисный мяч на корте во время игры. Старые сетки даже на хорошей GPU тратили бы по 5 минут, чтобы обработать видео. Игрокам приходилось бы стоять и ждать систему VAR. Нужен был подход, где реалтайм важнее идеального результата. Так появилась YOLO. 📌 YOLO v1: Модель смотрит сцену целиком (2015) Идея была следующей: превратить детекцию из задачи поиска регионов в задачу регрессии. Объединить все этапы в одну сеть, которая напрямую «выплюнет» координаты. Как это реализовали технически: 📝 Сделали архитектуру, похожую на GoogLeNet. Два полносвязных и 24 сверточных слоя. Хоть она и большая, зато выделяла б-боксы и сразу определяла координаты. 📝 Все изображения разбивались на сетку 7x7. Каждая ячейка предсказывала по 2 б-бокса и 20 классов. На вход подавалась картинка разрешением 448x448, которая делилась ещё на 64x64. Проблема: YOLO v1 не умела обрабатывать другие разрешения. Чтобы работать с детекцией на больших картинках, их ресайзили до 448x448 или нарезали на патчи. Из-за лишних операций терялось главное преимущество перед Faster R-CNN — скорость. 📌 YOLO v2 / YOLO9000: Появились масштаб и опорные точки (2016-2017) Чтобы нивелировать сложный LOSS, в новую версию добавили multi-scale: YOLO9000 одновременно определяет более 9000 классов без полной разметки — отсюда и название. Какие новые фишки: 📝 Anchor Boxes: вместо предсказания координат в лоб, перешли к предсказанию сдвигов относительно осей X и Y для кандидатов. Это максимизировало захват объекта. 📝 Skip Connections: ввели pass-through слои и добавили батч-нормализацию, что решило проблему затухания градиентов. Проблема: точность детекций стала сильно зависеть от anchor boxes. Опорные точки подбирались вручную: если их плохо подобрали под датасет, метрики модели проседали. 📌 YOLO v3: Победа над другими моделями (2018) Благодаря обновлению YOLO v3 стала фундаментом в ML. Она обогнала по популярности Faster R-CNN и стала любимицей многих разработчиков. Что нового добавили: 📝 Multiscale detection. Он убрал шум при обнаружении мелких объектов и перестал их пропускать. 📝 «Третий глаз». Сеть выдавала сразу три кандидата на разных разрешениях — большом, поменьше и самом маленьком. Проблема: версия стала медленнее. Из-за усложнения архитектуры v3 стала тяжелее предшественниц. Опорные точки все еще выставлялись вручную, что тоже замедляло процесс детекции. Модель развивалась и дальше, но уже не в руках автора оригинала Джозефа Редмона: он ушел из ML и передал проект крупной компании. В следующем посте разберём, почему YOLO v4 называют «библией инженера», а YOLO v5 — «гадким утёнком». 💜 Этот пост написал Никита Алутис, ML-разработчик в Точка Банк

Другие посты @mltochka