888просмотров
15.1%от подписчиков
26 марта 2026 г.
📷 ФотоScore: 977
Если вы уже начали паковать вещи, опасаясь, что AGI завтра отберет вашу работу, можете смело выдыхать. Франсуа Шолле выкатил свежий бенчмарк ARC-AGI-3, и результаты там просто уморительные. Обычные кожаные мешки с улицы проходят этот тест на интеллект с результатом 100%. А вот навороченные GPT-5.4, Gemini 3.1 Pro и Opus 4.6 с треском пробивают дно, набирая доли процента. Cтарые версии тестов корпорации тупо скормили своим моделям на этапе обучения (Gemini вообще спалилась, выдавая правильные ответы без контекста). Поэтому Шолле психанул и превратил бенчмарк в интерактивные мини-игры. Нейронку кидают в среду 64х64 вообще без инструкций, она должна сама потыкаться, понять правила и дойти до цели. И если случайный человек щелкает задачку за 7 минут, то хваленый ИИ беспомощно галлюцинирует, потому что не умеет в настоящее исследование и целеполагание без пинка под зад. 🥸 Новости IT: 📱 Telegram | 📱 ВК | 📲 MAX