Х
Хабр / ML & AI
@habr_ai979 подп.
51просмотров
5.2%от подписчиков
30 марта 2026 г.
statsScore: 56
Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт. Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях. Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте. Детали по исследованию #исследование #бенчмарки #ии #gigachat #yandexgpt | @habr_ai
51
просмотров
1215
символов
Нет
эмодзи
Нет
медиа

Другие посты @habr_ai

Все посты канала →
Kimi K2.5 наступает на пятки GPT-5.4. И работает из России б — @habr_ai | PostSniper