597просмотров
3 апреля 2023 г.
Score: 657
Скайнет пока не случился (часть 1) Недавно состоялся запуск нейросети ChatGPT 4, которая, по мнению многих аналитиков и ученых, превосходит все что существовало на рынке до сих пор. ChatGPT — это генеративный претренированный трансформер. Это нейросеть, формирующая ответ по принципу "сделай мне похоже". Ответ собирается из готовых кубиков, которые называются токенами. Она выбирает те токены, которые являются наиболее релевантными или самыми высокочастотными ответами на некий запрос, и проверяет, чтобы токены не повторялись. Одной из фундаментальных проблем ChatGPT является то, что эта нейросеть обучалась на большом количестве данных на английском языке, поэтому хуже работает на других языках. Например, в английском языке выходные токены — это слова, а в русском языке выходные токены — это буквы. Поэтому с русским текстом ChatGPT заведомо будет работать некорректно, то есть будет хуже подбирать ответы на запросы и ошибаться. Английская версия с таким же запросом будет справляться заметно лучше. Другую проблему ChatGPT можно сформулировать в виде простого вопроса: «Является ли самый частый ответ на вопрос правильным?». Я думаю, ответ очевиден: смысл ответа и частота его употребления не обязательно зависят друг от друга. Скорее всего, в большинстве случаев вы получите правильный ответ, но в остальных — неправильный или даже особенно вредный. Например, уже есть случаи генерации опасного контента через обход защитных механизмов чат-бота, которые должны предотвращать такие сценарии использования. Использование нейросетей сегодня похоже на подбрасывание монетки, так как человек зачастую осмысленно отвечает на вопрос, а алгоритм просто удачно комбинирует лучшую последовательность токенов. То есть ИИ чат-бот может классно прикидываться, что понимает смысл написанного, но по факту это самый часто употребляемый набор слов по данному запросу. Либо ответ, отредактированный вручную сотнями тысяч наемных сотрудников из Африки, чтобы результаты запросов не шокировали пользователей. Случился даже целый скандал, связанный с эксплуатацией жителей бедных стран при разработке GPT 3. Компания OpenAI использовала кенийских работников за $2 в час, чтобы сделать ChatGPT менее токсичным. Людям приходилось ежедневно просматривать самый жесткий контент из интернета. Многие работники получили психологические травмы, но капиталистическая машина пережевала их и выплюнула, не выплатив должной компенсации за тяжелейший труд и не предоставив обещанную психологическую помощь. Это в очередной раз показало обратную сторону разработки прорывных технологий и реальное состояние корпоративных ценностей.