⚡Полная версия MiVOLO на HuggingFace! Наша молниеносная модель в 29 млн. параметров для определения пола и возраста, которая до сих пор #1 на 7 открытых бенчмарках, теперь открытая! Изначально мы публиковали только веса, полученные на открытых данных. С тех пор многое изменилось и мультимодальные нейросети ушли далеко вперёд. Когда мы разрабатывали первую версию, ещё не было ассистентов, работающих с изображениями — ChatGPT только готовился выпустить ныне почивший 4V, который, как оказалось, раб...
The Layer
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
8 из 8Абсолютно всё в этих примерах создано без участия человека, мы просто задали направление. (о3, FLUX, QwenVL, Gemini, Malvina).
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining Вышел наш первый препринт из запланированного цикла статей по теме редактирования изображений. Основная мысль, вокруг которой построено повествование, это как бы так автоматизировать процесс сбора данных (триплетов <входное изображение, инструкция, выходное изображение>), чтобы было одновременно и качественно, и без участия человека. Обычно одно из двух (или даже ни одно из). Многие исходят из идеи, что в мире уже понаделано ...
Ещё раз напомню, что доступно бесплатное демо нашего файнтюна Bagel-NHR-Edit на HuggingFace. Текущая S.O.T.A. на GEdit-Bench-EN и ImgEdit-Data И ещё, нам будет приятно, если вы отдадите свой голос за работу на HuggingFace 🤗 (нужен аккаунт).
Небольшая подборка черри-пиков от нас 🦾 Поделитесь, пожалуйста, вашими результатами в комментариях 👇
✨Big Tech Night: не пропусти первую «Ночь музеев» в мире IT 12 сентября в Москве пройдёт Big Tech Night — первая «Ночь музеев», посвященная IT, где выступят мои коллеги, а также спикеры из таких компаний как Яндекс, X5, Т-Банк и Lamoda. В программе: топовые доклады про последние достижения IT и GenAI, неформальное общение, нетворкинг, а также сюрпризы от каждой компании. Ждем экспертов по разработке, аналитике, ML и AI в оффлайне и приглашаем присоединиться всех-всех-всех онлайн. 👉Регистрация т...
Вакансия: Deep Learning Engineer, ASR 🎧 Ищем инженера-исследователя в ML команду распознавания речи (ASR) Мы развиваем технологии распознавания речи во всей экосистеме Сбера: от умных устройств и видео-конференций до телефонного канала и B2B-продаж Задачи Недавно мы выложили в open-source SSL модель GigaAM (GitHub, arXiv), а ее улучшенная версия GigaAM Max уже доступна в @smartspeech_sber_bot и умных устройствах. Следующая амбициозная цель — донести то же качество до всех поверхностей: от высок...