E
Embodied AI Reading Club
@embodied_ai_rc572 подп.
1.6Kпросмотров
8 августа 2025 г.
📷 ФотоScore: 1.7K
Всем привет!🔥 📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов) Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью? В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов Статьи: 1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models 2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models 3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent 4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models 🍿Ссылка на подключение Подписаться⤵️ Embodied AI Reading Club
1.6K
просмотров
1441
символов
Нет
эмодзи
Да
медиа

Другие посты @embodied_ai_rc

Все посты канала →
Всем привет!🔥 📆Сегодня (8 августа) в 17:00 Даниил Казачков — @embodied_ai_rc | PostSniper