ОДИН ПОИСК ПО ВСЕМУ - ТЕКСТ, ФОТО, ВИДЕО, ГОЛОС Представь си — @AI_Handler

5.1Kпросмотров

68.1%от подписчиков

10 марта 2026 г.

📷 ФотоScore: 5.6K

ОДИН ПОИСК ПО ВСЕМУ - ТЕКСТ, ФОТО, ВИДЕО, ГОЛОС Представь ситуацию. У тебя на компьютере тысячи файлов: фотки из отпуска, голосовые из WhatsApp, рабочие PDF, обрывки видео. Чтобы найти нужное, приходится вспоминать - это было в фотках? в документах? я это говорил голосом или писал текстом? Google сегодня выкатил Gemini Embedding 2 - штуку, которая складывает всё это в одну кучу по смыслу. Текст, картинки, видео, аудио, PDF - всё попадает в единое пространство, где можно искать что угодно через что угодно. Как это выглядит на практике. Ты пишешь «ужин на террасе прошлым летом» - и система находит фотку заката, голосовуху где ты рассказываешь другу про ресторан, и PDF с бронированием. Потому что она понимает смысл, а не ищет слово в названии файла. Или вот для работы. У компании база знаний: инструкции текстом, обучающие видео, записи созвонов, сканы договоров. Новый сотрудник спрашивает «как оформить возврат клиенту» - и получает сразу кусок видео с тренинга, пункт из регламента и запись звонка где коллега объясняет нюансы. Раньше для такого нужно было делать отдельный поиск по тексту, отдельный по картинкам, и молиться что кто-то подписал файлы правильно. Тут одна модель, один запрос. В исследовательских лабораториях похожие модели уже были (WAVE, Omni-Embed), но как готовый продукт с API - это первое такое предложение на рынке. У OpenAI, Amazon и Cohere мультимодальные эмбеддинги ограничены текстом и картинками. Модель бесплатна в preview, работает через API. Понимает 100+ языков. А вы как ищете информацию в своём хаосе файлов? Или у вас всё по папочкам разложено?

Другие посты @AI_Handler