229просмотров
45.2%от подписчиков
27 сентября 2025 г.
📷 ФотоScore: 252
Интересно. OpenAI создал GDPval. TDLR: (ниже перевод статьи). GDPval — новый бенчмарк от OpenAI для измерения того, как ИИ справляется с реальными экономически ценными задачами. Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США. Как работает:
• Включает 1320 задач, созданных и проверенных экспертами с опытом 14+ лет.
• Задания максимально приближены к реальной работе: юридические документы, инженерные чертежи, планы ухода за пациентами, диалоги поддержки.
• Форматы: документы, слайды, таблицы, мультимедиа. Оценка:
• Эксперты сравнивают «вслепую» работы людей и ИИ.
• GPT-5 лидирует по точности, Claude Opus 4.1 — по оформлению.
• С весны 2024 до лета 2025 качество работы моделей удвоилось.
• Модели выполняют задачи ~100x быстрее и дешевле людей (без учёта надзора и интеграции). Зачем: GDPval показывает, какие рутинные задачи ИИ может уже взять на себя, освобождая людей для более творческой и ответственной работы. Это может дать рост продуктивности и экономики. Ограничения: пока это одношаговые тесты, не учитывающие итерации, обратную связь и работу с неопределённостью. Будущие версии будут расширяться и усложняться. Статья: https://openai.com/index/gdpval/ Еще интересно: Abundant Intelligence - https://blog.samaltman.com/abundant-intelligence
The Gentle Singularity - https://blog.samaltman.com/the-gentle-singularity