1.8Kпросмотров
6 июля 2024 г.
Score: 1.9K
Будущее квантизации 🔮 Квантизация - метод сжатия моделей. Позволяет использовать модели на кратно меньшем объеме ресурсов, плюс работает быстрее относительно использования полных fp16/bf16 типов. Но это конечно не за бесплатно - качество таких моделей похуже (что не всегда критично, поэтому методы сйечас распространены и полезны). Но 🔹 Стартапы типа Groq решают проблему ресурсов более радикально и без потерь в качестве: разрабатывают не general purpose чипы, как GPU, а специфичные для AI моделей. Боттлнеки в виде memory bandwidth, актуальные при использовании GPU, не будут проблемой в новых чипах 🔹 При обучении на большем числе токенов, модели теряют больше качества при квантизации. Их становится сложней сжимать, ведь они упаковали в себя больше знаний. И дообучение на всё больших объемах данных - очевидный тренд в AI Из этого мне кажется, что актуальность квантизации и других методов сжатия будет убывать 👋 Not a career advice =) @building_singularity