ARC-AGI-3: новый бенчмарк, который не прошли GPT-5.4 и Gemin — @AIReviewer

5просмотров

0.4%от подписчиков

30 марта 2026 г.

stats📷 ФотоScore: 6

ARC-AGI-3: новый бенчмарк, который не прошли GPT-5.4 и Gemini 3.1 Официальный анонс бенчмарка ARC-AGI-3 зафиксировал критический разрыв между человеческим интеллектом и современными нейросетями. В условиях, где обычные люди показывают 100% результат, топовые модели (включая Gemini 3.1 и GPT-5.4) не смогли преодолеть даже 1%. В отличие от стандартных тестов, которые оценивают накопленные в процессе обучения знания, ARC-AGI-3 проверяет способность ИИ адаптироваться к абсолютно незнакомой среде без предварительной базы. Это проверка умения строить гипотезы с нуля и гибко менять их в зависимости от ситуации. Тестирование выявило фундаментальные ограничения текущих архитектур: — ИИ не может осознать контекст происходящего и выстроить логическую цепочку действий. — Модели склонны фанатично придерживаться своей первой (часто ошибочной) гипотезы, не имея возможности пересмотреть её при изменении условий. — Нейросети по-прежнему не способны эффективно предсказывать развитие событий в нестандартных сценариях. ARC-AGI-3 становится новым золотым стандартом в индустрии. Если предыдущие бенчмарки покорялись ИИ за рекордно короткие сроки, то здесь индустрии предстоит решить фундаментальную задачу: научить машины не просто воспроизводить заученное, а мыслить адаптивно. Скорость прогресса в преодолении этого 1% барьера станет главным индикатором реального приближения к уровню AGI. Проверить себя можно тут (а то вдруг в душе вы ИИ).

Другие посты @AIReviewer