И
Илья Филиппов
@filippov_GenAI364 подп.
569просмотров
10 декабря 2025 г.
questionScore: 626
Датасеты — новая нефть? Почему данные стали дороже AI-моделей Пока все обсуждают новые версии ChatGPT и Claude, в индустрии происходит тектонический сдвиг: датасеты превращаются из вспомогательной инфраструктуры в самостоятельные бизнесы стоимостью в миллиарды долларов. Показательный пример — сделка Meta (запрещена в РФ) и Scale AI. Корпорация инвестировала в стартап по маркировке данных $14.3 млрд, получив 49% акций. Это вторая крупнейшая сделка компании после покупки WhatsApp (запрещён в РФ).  Вложения увеличили оценку Scale AI до $29 млрд, а выручку — с $80 млн в 2021 до прогнозируемых $2 млрд в 2025.  Почему это происходит? Если коротко, то модели коммодитизировались. GPT-4, Claude, LLaMA доступны через API или open-source. Но проприетарные датасеты — нет. А именно качество и редкость данных сейчас считается главным конкурентным преимуществом и Баффетовским economic moat для AI-стартапов.  Три драйвера роста:  1️⃣ Растущая ёмкость: рынок AI-датасетов уже оценивается в $3.5+ млрд и может вырасти до $17 млрд к началу следующего десятилетия. 2️⃣ Evaluation: развитие AI-агентов требует собственных evaluation datasets. Сегмент растёт с $5.4 млрд (2024) до $50 млрд в 2030 при CAGR 45.8%. На этом строится бизнес Braintrust ($45M при оценке $150M) и Patronus AI ($20M инвестиций). 3️⃣ Глубина: общие модели остаются поверхностными в специализированных областях, поэтому появляются отраслевые проекты. • Bloomberg потратил ресурсы на обучение BloombergGPT на 363 млрд токенов финансовых данных за 40 лет.  • Tempus AI заработал $693 млн выручки в 2024 на медицинских датасетах.  • RELX выделил 70% R&D-бюджета на AI и данные, опираясь на 138 млрд юридических документов. Новая экономика данных В бюджетах компаний также появляются отдельные статьи доходов, которых раньше не существовало. • Reddit: контракты на $203 млн, включая $60 млн в год от Google • News Corp: сделка на $250 млн на пять лет с OpenAI • NVIDIA: покупка Gretel AI за $320+ млн Ключевой вопрос сейчас в том, понимает ли ваша компания ценность данных, на которых она сидит, и готова ли монетизировать их раньше конкурентов?
569
просмотров
2239
символов
Нет
эмодзи
Нет
медиа

Другие посты @filippov_GenAI

Все посты канала →
Датасеты — новая нефть? Почему данные стали дороже AI-моделе — @filippov_GenAI | PostSniper