315просмотров
22 июля 2024 г.
Score: 347
👾 ИИ скоро останется без данных для обучения Недавнее исследование 14 000 веб-доменов показало, что за последний год количество ограничений на использование данных для обучения ИИ выросло с 1% до 28%. Исследователи подсчитали, что в трёх наборах данных — C4, RefinedWeb и Dolma — порядка 25% было ограничено с помощью файла robots.txt. А 45% данных в наборе C4 ограничены условиями использования сайта (Terms of Use). Чаще всего с запретами сталкиваются краулеры OpenAI (в отличие от роботов Meta или Google). Кроме того, обнаружены противоречия в протоколах: файл robots.txt может разрешать краулинг определённых разделов сайта, тогда как Terms могут полностью запрещать использование этих данных для обучения ИИ. Также интересно, что данные, собранные с веба, не всегда соответствуют задачам, в которых реально используются модели. Например, новости составляют 40% данных, но каждый третий человек использует ИИ для создания креативного контента. Ограничения на данные могут снизить масштабы и качество обучения моделей ИИ, что замедлит технологический прогресс. Некоммерческие и академические проекты также пострадают. Исследователи подчеркивают важность создания более совершенных протоколов для управления согласием на использование данных и сохранения открытого доступа к данным для развития технологий и науки. 🌐 Подробности исследования: https://www.dataprovenance.org/Consent_in_Crisis.pdf