935просмотров
80.6%от подписчиков
21 февраля 2026 г.
📷 ФотоScore: 1.0K
➡️ Иногда задача звучит просто: проанализировать видео. На практике — длинные ролики, хаотичные сцены, перекрытия объектов и высокая вариативность действий… Рассказываем, как получилось справиться с трудностями при оценке действий на видео и почему foundation-модели — это не «волшебная кнопка». Подробнее разберем, почему одного CLIP недостаточно, зачем мы выбрали PE вместо DINOv3 и как правильная агрегация эмбеддингов через TCN дала ощутимый буст качества. #заглянем_под_капот На карточках — реальный CV-кейс, инженерные детали и выводы о том, где на самом деле рождается стабильное качество в проде 👆 🌟 @wb_space