2.0Kпросмотров
57.1%от подписчиков
27 января 2025 г.
Score: 2.2K
🔥DeepSeek: как небольшой стартап из Китая перевернул правила игры в ИИ Сегодня вместо традиционного дайджеста пост про нашумевшую в последние дни модель и ее влияние на рынки. Предыстория (или легенда)
Всего за $6 млн и 2 месяца команда DeepSeek из 200 человек создала модель, конкурирующую с GPT-4 от OpenAI и Claude 3.5 Sonnet от Anthropic, которые тратят на аналогичные разработки миллиарды. Более того, DeepSeek выложила все наработки в бесплатный доступ. Стартап начинал как хедж-фонд в сфере алгоритмической торговли. Со временем команда запустила сторонний проект, чтобы задействовать простаивающие чипы NVIDIA предыдущего поколения (в Китае действуют санкции на поставки новых GPU). Поставили себе цель — оптимизировать алгоритмы и создать большую языковую модель при ограниченном бюджете и ресурсах. И кажется, у них это получилось. Пару слов про ключевые инновации: (подробный технический разбор тут) ▪️FP8 вместо FP32. Большинство компаний (включая OpenAI) используют для обучения «тяжёлые» форматы данных (FP32), требующие большое количество современных чипов. DeepSeek внедрила FP8 с дополнительной оптимизацией — компактный формат, который экономит ресурсы без потери качества. Они использовали «слабые» чипы, но настолько эффективно, что снизили стоимость обучения в 45 раз по сравнению с OpenAI. Ничего вам не напоминает?) Это же прямо сценарий из сериала Силиконовая долина, когда Ричард случайно изобрёл алгоритм сжатия данных без потерь. 👀 ▪️Reasoning-модель R1. Предложили решение одной из главных проблем ИИ: обучение логике без тонн размеченных данных. Система создаёт «экспертные» модели для каждой области (математика, программирование и т.д.). Эксперимент R1-Zero показал, что модель научилась генерировать цепочки рассуждений, самопроверяться и распределять вычислительные ресурсы в зависимости от сложности задач. Последствия для компаний и индустрий 🔹Доступность ИИ: Стоимость доступа к большим языковым моделям значительно снизится. Стартапы и энтузиасты смогут проводить исследования и обучать собственные модели без больших затрат. 🔹NVIDIA и инфраструктурные компании могут получить меньше заказов. Меньше GPU → ниже затраты на инфраструктуру. В выигрыше — стартапы вроде Cerebras и Groq, разрабатывающие чипы для «лёгких» моделей. 🔹Смена приоритетов: Инвестиции в "железо" от бигтехов сместятся на прикладные разработки. 🔹Ускорение научного прогресса. Дешёвые симуляции ускорят прогресс во многих сферах — разработка лекарств, робототехника, проектирование новых материалов, автономный транспорт. 🔹Энергетика. Сократятся расходы на электричество и охлаждение. Дата-центры смогут выполнять в 2 раза больше задач при тех же мощностях. 🔹Управление данными. Больше исследований → больше данных. Cпрос на сбор и хранение данных должен вырасти. В плюсе сервисы и компании вроде Amazon Web Services, DigitalOcean ($DOCN), Snowflake ($SNOW), Databricks, Datadog ($DDOG), Elastic ($ESTC). 🔹Устранение монополий. Гонка ИИ между США и Китаем набирает обороты, а дебаты вокруг ограничения влияния бигтехов идут уже не первый год. Новая администрация Трампа не раз акцентировала внимание на проблемах монополий, и вполне вероятно, что в ближайшее время последуют конкретные шаги: антимонопольные законы или другие меры, направленные на стимулирование конкуренции. 🔹Интерес к китайским технологиям и компаниям продолжит расти. Эта история ещё далека от завершения. Все последствия амбициозных заявлений DeepSeek предстоит оценить, но уже сейчас очевидно, что их подходы могут существенно изменить ландшафт ИИ. ➡️ Впереди интереснейшая неделя: комментарии по процентной ставке, публикация важных экономических данных и отчёты компаний из "великолепной семёрки".