1.2Kпросмотров
37.7%от подписчиков
15 октября 2025 г.
📷 ФотоScore: 1.3K
Кажется, что мир ИИ застрял на повторе: каждую неделю новая модель, новые демо и ещё один «прорыв», который завтра никто и не вспомнит. Но если отойти на шаг и посмотреть на картину в большем масштабе, очевидно, что метрики уверенно ползут вверх. Epoch AI собрали свежую инфографику по ключевым бенчмаркам и посмотрели, что изменилось за 12 месяцев. Короткий вывод: дела уверенно идут в гору по всем направлениям! 🤴 📊 Какие бенчмарки использовали? 🟢GPQA (Graduate-level Physics Questions Answers)
Проверяет, насколько хорошо ИИ решает сложные научные задачи по физике, химии, биологии, которые требуют глубокого понимания предмета, а не просто поиска ответа в интернете. 🟢MATH (Mathematics Aptitude Test of Heuristics)
Тесты на математические задачи исследовательского уровня, где обычные школьные методы уже не работают. 🟢Aider Polyglot
Задачи по программированию и тому, насколько ИИ способен не просто написать код, а решить действительно нетривиальные кейсы, требующие мышления. 🟢SimpleBench
Проверка на базовый здравый смысл и бытовую логику, задания, с которыми человек справится легко, а ИИ часто ошибался до недавнего времени. 🟢VPCT (Visual Physical Causality Test)
Тест на понимание элементарной физики по изображениям, считывает ли модель причинно-следственные связи в картинках. Цифры из графика: Aider Polyglot (программирование): +52% и максимальный скачок до 85% VPCT (визуальное понимание): +26% до 66% GPQA Diamond (наука): +25% до 87% SimpleBench (здравый смысл): +21% до 62% FrontierMath (сложная математика): +23% до 31%. ❗️Проценты на графике это относительный прирост по точности (accuracy), а не абсолютный процент новых правильных ответов.