Всем привет!🔥 📆Сегодня (8 августа) в 17:00 Даниил Казачков — @embodied_ai_rc

1.6Kпросмотров

8 августа 2025 г.

📷 ФотоScore: 1.7K

Всем привет!🔥 📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов) Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью? В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов Статьи: 1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models 2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models 3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent 4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models 🍿Ссылка на подключение Подписаться⤵️ Embodied AI Reading Club

Другие посты @embodied_ai_rc