5просмотров
7 апреля 2024 г.
statsScore: 6
GPT-4 учили на YouTube Согласно результатам поиска, OpenAI использовала транскрипции более миллиона часов видео с YouTube для обучения своей наиболее продвинутой модели языкового моделирования, GPT-4. https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google Это было частью усилий компании по сбору качественных данных для развития и улучшения AI-моделей, таких как GPT-4. OpenAI разработал свою модель Whisper для транскрибирования аудио, чтобы помочь в этом процессе. Использование видео с YouTube для тренировочных данных было юридически спорным со стороны OpenAI, но они считали, что это является справедливым использованием. Президент OpenAI Грег Брокман лично участвовал в сборе видео, которые использовались для этой цели. Представитель OpenAI, Линдсей Хелд, заявила, что компания собирает уникальные наборы данных для каждой из своих моделей, чтобы помочь им понять мир, и использует множество источников, включая публично доступные данные и партнерства для непубличных данных. Google, которая владеет YouTube, имеет 'robot.txt-файлы и Условия обслуживания, которые запрещают неавторизованное скачивание или скачивание контента YouTube. Специалист по связям с общественностью Google Мэтт Брайант заявил, что компания принимает технические и юридические меры для предотвращения такого неавторизованного использования, когда у нее есть ясная правовая или политическая база для этого. Результаты поиска показывают, что обучение GPT-4 на транскриптах YouTube было частью более широкой стратегии компаний по ИИ по преодолению вызова по поиску достаточного и разнообразного объема данных для эффективного обучения своих моделей. Эта стратегия также включала использование данных из других источников, таких как GitHub, базы данных ходов шахмат и учебный материал Quizlet.