📈Рейтинги LLM теряют доверие Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты. 👀 Ключевые данные: — 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал. — 26,7% принципиально не опираются на рейтинги. — Лишь около 18% обращаются к агрегаторам по типу llmstats Главные критерии выбора ...
LLM Arena
llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20🔫 GenCode Mini Gallery Bench LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк. 📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки. GenCode Mini Bench не содержит выводов — только...
⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года. В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года). 1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью. • Reasoning-модели уже >50% всего трафика. • xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pr...
На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны. 1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей. Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и раз...
🎭OpenRouter всё? На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ. Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут. ❌ Дарим пром...
Подборка актуальных материалов по LLM и автоматизации Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства. Делимся подборкой полезных материалов за 2025: 👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше 👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно 👀 Домен-специфичные LLM: как сделать ИИ реально полезным для ва...
👁 Рекомендуем посмотреть выступление CEO LLM Arena — Романа Куцева на конференции Conversations. За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг. ➕Тема напрямую продолжает наше недавнее исследование о том, как специалисты выбирают LLM для своих проектов. 👀 P.S. А если вы ищете где можно попробовать разные модели под свои задачи, то рекомендуем VseLLM. По промокоду SPECIALGIFT мож...
Polaris Alpha ✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI. Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet. ❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «...
Поделюсь обновлениями проекта VseLLM! Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте. С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью. Если вы работаете с LLM или автоматизацией ...
Новый Qwen3-Max и Sentiment control ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа). Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность мод...