568просмотров
43.5%от подписчиков
22 июля 2024 г.
📷 ФотоScore: 625
🔎 Из датасетов для обучения ИИ пропало до 30% информации Выяснили исследователи из MIT. В своей работе они проанализировали 14 тыс. веб-доменов. Информация именно с этих доменов попадает в самые крупные датасеты для обучения ИИ (C4, RefinedWeb, Dolma и другие). Эти датасеты скачали от 100 тыс. до более чем 1 млн раз. 📚 В датасете Dolma, например, содержится 3 трлн токенов информации. ✈️ Авторы исследования подсчитали, что за 2023–2024 годы около 5% от всего количества токенов информации в датасете C4 оказались под запретом из-за действий владельцев ресурсов (откуда информация получена). Это значит, что владельцы тем или иным образом запретили собирать информацию с их сайта для обучения ИИ. 💎 Если 5% не кажется серьезной цифрой, то важно отметить, что этот показатель составляет почти 30% для информации из «высококачественных» источников. Такая информация критически важна для ИИ, чтобы модель могла выдавать точные ответы на запросы пользователей. Это могут быть, скажем, уважаемые СМИ, которые публикуют только проверенную информацию. 📆 Конечно, это не значит, что датасеты в прямом смысле потеряли эту информацию. Но это значит, что они, вероятно, не смогут получать обновленные, актуальные данные для обучения ИИ-моделей. А значит, сами модели могут стать в какой-то момент устаревшими. 🔒 Исследование MIT затрагивает критически важную для всего ИИ-сегмента проблему дефицита информации, о которой говорят не первый год. Но если раньше речь шла в основном о том, что новая информация для обучения закончится естественным путем (ИИ просто узнает все, что можно узнать), то теперь свою роль играют и владельцы информации. 😢 В этой ситуации мало кому жалко бигтехи, которые тратят десятки миллионов долларов на сделки, обеспечивающие их LLM данными. Датасетами также пользуется научное сообщество, стартапы и НКО, которым теперь будет тяжелее обучить модель.