D
Data Secrets
@data_secrets88.5K подп.
20.4Kпросмотров
23.1%от подписчиков
26 марта 2026 г.
stats📷 ФотоScore: 22.4K
⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест для эвала агентов В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред. Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента. Вот здесь примеры, как тест проходит Gemini 3.1: с некоторыми задачками она справляется нормально, с некоторыми – очень плохо. Самостоятельно поиграть можно здесь. Ключевые проверяемые способности – самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться. В общем, команда продолжает выискивать именно то, что делает интеллект человека по-настоящему сильным, и что пока недоступно моделям. Ну и стартовало традиционное соревнование по обновленной версии. Призовой фонд на этот раз – 2 миллиона долларов. Хотя больше интересно, когда опубликуют лидерборд фронтиров
20.4K
просмотров
1135
символов
Нет
эмодзи
Да
медиа

Другие посты @data_secrets

Все посты канала →
⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый и — @data_secrets | PostSniper