◾ Что с этим делать на практике Не фиксируйтесь на одном чис — @technodynamism

8просмотров

7.6%от подписчиков

17 февраля 2026 г.

Score: 9

◾ Что с этим делать на практике Не фиксируйтесь на одном числе. Смотрите на несколько бенчмарков в категории которая важна именно вам. Нужен код? SWE-bench важнее MMLU. Нужны общие знания? Смотрите MMLU-Pro и GPQA вместе. Chatbot Arena - хороший ориентир для общего качества. Если модель высоко в этом рейтинге, скорее всего она будет хороша для большинства обычных задач. Свежие бенчмарки надёжнее старых. GPQA, MMLU-Pro, LiveBench, HLE - там меньше шансов на contamination чем в классических тестах пятилетней давности. Лучший бенчмарк - ваши собственные задачи. Возьмите 20-30 реальных примеров из вашей работы и прогоните через несколько моделей. Это покажет больше чем любые публичные таблицы, потому что измеряет именно то что вам нужно. ⠀ ◾ Полезные ресурсы: • Chatbot Arena - live рейтинг на основе человеческих предпочтений • Artificial Analysis - сравнение моделей по качеству, скорости и цене • LLM Stats - агрегатор результатов по разным бенчмаркам • SWE-bench - лидерборд по кодингу

Другие посты @technodynamism