Давно что-то на Хабр ничего не постил. Решил собрать прошлые три статьи в стройную статью и бахнуть туда https://habr.com/ru/companies/recognitor/articles/992476/
Заметки Computer Vision инженера
Мои статьи из разных мест. Моя телега - @wk_zb Про консультации - https://telegra.ph/Pro-konsultacii-03-19 Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19 Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
18 из 18Не на все комментарии на YouTube отвечаю, но читаю все. И, надо сказать, что среди всех вендоров NPU/3д камер/бордов есть только один который не брезгует нагнать ботов под видео. Причем обычно волнами идёт:) Самое забавно в это ситуации: видео негативное. И это настолько очевидно что под него даже пришёл представитель Radxa и сказал что да, у них тут с OpenSource коллабом с медиатеком не вышло, и плата вышла не очень по софту.
Сыну в мае будет 6. Но в целом уже вполне дорос до понимания того что такое "вайб-кодинг":) Результатом что у него получилось был очень доволен. Ну а я записал небольшое видео о том насколько важны сейчас агенты и вайбкодинг, что надо делать через них в Computer Vision'е и нейронках: https://youtu.be/TkWXotR-rLM (видео на русском на втором канале)
После прошлого видео я не удержался и захотел натренировать Qwen-3VL на той же кваке. Но он оказался чудовищно медленным для неё. Так что таки решил обучить робота про которого раньше рассказывал. Он все же сильно проще нормальной роборуки, да и раздолбать не так жалко😈 Видео - https://youtu.be/Vd8sQ-O7blI Статья - https://medium.com/p/551cf9bf2e60 Мне кажется что когда VLM-ки можно применять вместо VLA - так делать и надо. Они проще поддерживаются всем, проще обучать. Но, конечно, я не вижу по...
За последние пару недель вышло пару алгоритмов которые могут принципиально поменять как выглядит StereoDepth. Эта область зависала в прошлом последние 5 лет. И наконец кто-то сделал что-то новое. Я надеюсь что эти алгоритмы через пару лет придут в дешевый сегмент камер. Эти алгоритмы смогут бегать на обычных NPU + давать разумный FPS. https://youtu.be/m6WsI_pxvYw
Как только говорю "следующее видео будет такое" - почти сразу значит что что-то пойдёт не так. Так вот. 4 месяца назад я подумал что следующее видео после A7A будет про A5E. Но что-то пошло не так:) Оказалось что Radxa прислала мне версию без NPU. Это не было написано на коробке, надо было прочитать надпись на чипе. Попробовав раза 3 переустановить разные системы стало понятно что что-то не так. Новая плата пришла перед НГ, но там уже был план и не было лишних сил. Так что добрался только что. П...
В своих видео я неоднократно говорил что следующий шаг в нейроночках - печать сетки напрямую на кремнии. Либо какие-то промежуточные варианты, например "загружать веса при прошивке". Даже как-то помогал товарищам оценивать перспективы одного такого стартапа. Я думаю все уже видели эти недавные картинки. А вот тут можно потыкать и почувствовать это в реальном времени - https://chatjimmy.ai/ Что прикольного. Вместо "загрузить веса напрямую" Taalas делают это всё через LORA. У всего этого есть суще...
Сегодня уникальное видео https://youtu.be/HI47y_-Af3U Looper Robotics прислали мне их камеру на обзор до официального старта продаж. И надо сказать что это определённо одна из самых интересных 3д камер сейчас на рынке:) Это не значит что она лучшая, это значит что они попробовали перепридумать парадигму. Получится у них или нет - не знаю, но выглядит круто. так же сделал статью https://medium.com/p/7965df470f60
Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было видео на канале. Все же было бы круто если бы MediaTek тоже включился в гонку. Radxa за это время на удивление даже обновила прошивку, выложила Ubuntu сборку для ядра. Но... Там не было предустановлено никаких NPU драйверов. Так что для меня все так же и остаётся загадкой. Для кого вообще сделан NeuroPilot? На какой плате он должен работать? Кажется кроме радксы больше плат не...
У Gemini и у ChatGPT есть две больших проблемы. Причем одна проблема у Gemini, а вторая у ChatGPT. И то и то последние пол года-год, и то и то становится только хуже. 1) ChatGPT считает что он умеет работать с аудиофайлами. Настолько упорно считает что расшифровывает текст которого внутри нет. При этом русский он воспринимает хорошо (если надиктовывать прямо туда). И через API он аудио тоже хорошо распознаёт. 2) Gemini очень плохо работает с контекстом последнего года. До последнего уверяет что ...