N
NLP Wanderer
@nlpwanderer1.5K подп.
1.8Kпросмотров
19 мая 2025 г.
Score: 2.0K
По большей части работы, что я описал, являются фундаментальными и что-то вроде базовыми. Для большего понимания я рекомендую почитать недавно вышедшую статью на HuggingFace блоге о последних трендах в VLM: про reasoning в VLM, MoE-декодеры для VLM, исследование Vision Language Action моделей для робототехники, мультимодал раги, video-understending в VLM. 🐧 В целом я хотел кратко описать то, что я рассказал на выступлении, но вышел еще и вот такой лонгрид. Если вам понравилось, и вы хотите, чтобы я еще глубже попробовал раскрыть тему мультимодальности, например через призму робототехники (VLA, Planning), ставьте ваши реакции и пишите комменты!
1.8K
просмотров
652
символов
Нет
эмодзи
Нет
медиа

Другие посты @nlpwanderer

Все посты канала →
По большей части работы, что я описал, являются фундаменталь — @nlpwanderer | PostSniper