От нейросетей на FPGA до CTO стартапа Знакомьтесь с хэдлайне — @deepschool_speedup

1.9Kпросмотров

15 февраля 2024 г.

Score: 2.1K

От нейросетей на FPGA до CTO стартапа Знакомьтесь с хэдлайнером нашей программы и СТО ENOT.ai, Сашей Гончаренко. В этом посте он расскажет, как участвовал в разработке тензорного процессора, как из инженера в Expasoft стал СТО стартапа и в чём победил Qualcomm и Amazon. Вот что Саша говорит о себе: Когда поступал в университет, хотел стать физиком-теоретиком, как Ландау 😀 Поэтому поступил в НГУ на кафедру физики элементарных частиц, но позже сменил её на автоматизацию физико-технических исследований, где занимался внедрением водяных меток — невидимых человеческому глазу посланий на изображениях. Сейчас защищаю диссертацию на тему специализированных типов данных и квантования. Уже 5 лет преподаю в НГУ: «Введение в классический ML» на физфаке и DL на физфаке и факультете информационных технологий. На первом месте работы я запускал нейросети на FPGA (программируемые чипы), а оттуда перешёл в Expasoft, где уже по-настоящему погрузился в ИИ и ускорение. Знакомство с ускорением началось с квантования в 2018 году. Мы создавали софт для компании, которая делала тензорный процессор, аналог TPU от Google. В то время это было в новинку, но мы придумали алгоритм квантования, который позволил квантануть MobileNet-v2 почти без потерь. Тогда это было очень круто, люди его даже на TFLite запустить не могли, не то что квантануть! В 2018 с коллегами участвовал в конкурсе LPIRC (Low-Power Image Recognition Challenge). Мы заняли два первых места, оставив позади Qualcomm и Amazon. В 2023 снова ворвались в LPIRC (LPCV) и выиграли трек с самой точной моделькой среди всех быстрых. После ускорения различных архитектур в Expasoft мы с командой создали стартап ENOT.ai, который занимается ускорением нейронных сетей. В ENOT мы реализовали собственные NAS и фреймворк для “умного” выбора подархитектуры. Наш фреймворк сам выбирает, сколько и на каком слое выбирать фильтров/нейронов, исходя из целевого времени. В стартапе мы ускоряли нейронки под одноплатники, “умные” камеры, но чаще всего Nvidia GPU или Intel CPU. Сейчас мы занимаемся LLM-ками, диффузиями, мультимодальными моделями и их ускорением. При приёме на работу мы обучаем новых ребят актуальным методам ускорения и показываем, как связывать это в единый пайплайн. Сейчас нет обучений на русском языке, которые охватывали бы эти аспекты. Поэтому у нас с командой DeepSchool появилась идея создать полноценный курс. Для нас важно, чтобы люди не просто пользовались инструментами, но и понимали, как они работают на каждом шаге. Это позволяет минимизировать ошибки в работе и не переделывать несколько раз. Эти же принципы мы заложили в основу курса. Пишите в комментариях, что вам интересно узнать из опыта Саши и какую тему ему раскрыть поподробнее👇

Другие посты @deepschool_speedup