4
404 Driver Not Found
@DriverNotFound965 подп.
982просмотров
25 декабря 2025 г.
📷 ФотоScore: 1.1K
Self-Supervised Sparse Sensor Fusion for Long Range Perception Авторы этой статьи предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках. Ключевые фичи: 🔴 Sparse voxel representation вместо BEV помогает скейлиться на дальние расстояния. 🔴 Camera–LiDAR-фьюжн. Изображения с камер обрабатываются по схеме RGBD → Vision Mamba (ViM) → depth-module (RNN уточняет глубину) → sparse voxel lifting. 🔴 Temporal fusion (временной контекст). Главная фишка — sparse window attention: делают аттеншн для вокселя с предыдущего кадра к его соседям в кубике 3×3×3. 🔴 Self-supervised pretraining (UnO-like), чтобы сэкономить на разметке. Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity. Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции. Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты. Результаты впечатляют: 🔴 Depth Prediction: −27% MAE и −25% MSE vs SoTA при инференсе в 0,064 с на памяти 1,3 ГБ. 🔴 Object Detection: +26.6% к SoTA SAMFusion. В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки. Разбор подготовил ❣️ Владислав Поляков 404 driver not found
982
просмотров
2108
символов
Нет
эмодзи
Да
медиа

Другие посты @DriverNotFound

Все посты канала →
Self-Supervised Sparse Sensor Fusion for Long Range Percepti — @DriverNotFound | PostSniper