8просмотров
7.6%от подписчиков
17 февраля 2026 г.
Score: 9
◾ Что с этим делать на практике Не фиксируйтесь на одном числе. Смотрите на несколько бенчмарков в категории которая важна именно вам. Нужен код? SWE-bench важнее MMLU. Нужны общие знания? Смотрите MMLU-Pro и GPQA вместе. Chatbot Arena - хороший ориентир для общего качества. Если модель высоко в этом рейтинге, скорее всего она будет хороша для большинства обычных задач. Свежие бенчмарки надёжнее старых. GPQA, MMLU-Pro, LiveBench, HLE - там меньше шансов на contamination чем в классических тестах пятилетней давности. Лучший бенчмарк - ваши собственные задачи. Возьмите 20-30 реальных примеров из вашей работы и прогоните через несколько моделей. Это покажет больше чем любые публичные таблицы, потому что измеряет именно то что вам нужно.
⠀
◾ Полезные ресурсы: • Chatbot Arena - live рейтинг на основе человеческих предпочтений
• Artificial Analysis - сравнение моделей по качеству, скорости и цене
• LLM Stats - агрегатор результатов по разным бенчмаркам
• SWE-bench - лидерборд по кодингу