3.5Kпросмотров
2 декабря 2025 г.
📷 ФотоScore: 3.8K
На прошлой неделе заехал на Data Dojo — традиционную встречу ML-сообщества Яндекса. В этот раз собрали программу с обзором трендов и итогами года в ML Делюсь фактами, которые показались мне интереснее всего из двух выступлений: 🧬 Сергей Овчаренко, руководитель отдела мультимодального анализа и генерации, рассказал, какие задачи сейчас решают ИИ (пока мы тратим токены на генерацию compose-кнопочек): 🔵VLA — на вход получают "видео" + "звук", на выход выдают "команды для робота" робот слышит "подними банку", видит банку -> генерируется N команд для двигателей, чтобы выполнить задачу 🔵World Modeling — генерация 3D-миров с соблюдением физики и возможностью перемещаться по этому миру 🔵Omni — модельки, умеющие одновременно обрабатывать звук, видео и текст 🧬Дмитрий Солодуха, руководитель команды голосовой активации, поговорил о пользе от ИИ в Алисе: 🔵отклик без явного обращения по имени — слать весь аудиопоток дорого и не секьюрно, поэтому создали локальную модельку, которая из всего потока выбирает потенциальные команды 🔵короткие команды "останови", "переключи" можно обработать локально, но нужна моделька, которую потянет слабый процессор колонки 🔵на колонке несколько микрофонов. звук до каждого доходит с задержкой. можно выявить шумы на первом и со сдвигом заглушить их на втором (если успеешь🦔) 🔵если в комнате больше одной колонки, надо вычислять, к которой направлено обращение
3.5K
просмотров
1410
символов
Да
эмодзи
Да
медиа

Другие посты @dolgo_polo_dev

Все посты канала →
На прошлой неделе заехал на Data Dojo — традиционную встречу — @dolgo_polo_dev | PostSniper