LLM Arena

@llm_arena💻 Технологии🇷🇺 Русский📅 март 2026 г.

llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке

📊 Полная статистика 📝 Все посты

##036

1.4K

Подписчики

3.1K

Ср. охват

231.7%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20

llm_arena

16 сент., 17:02

📈Рейтинги LLM теряют доверие Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты. 👀 Ключевые данные: — 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал. — 26,7% принципиально не опираются на рейтинги. — Лишь около 18% обращаются к агрегаторам по типу llmstats Главные критерии выбора ...

👁 26.5K

📊 Аналитика

llm_arena

24 нояб., 12:14

🔫 GenCode Mini Gallery Bench LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк. 📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки. GenCode Mini Bench не содержит выводов — только...

👁 8.0K🎬 video

📊 Аналитика

llm_arena

19 янв., 16:19

⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года. В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года). 1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью. • Reasoning-модели уже >50% всего трафика. • xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pr...

👁 2.8K

📊 Аналитика

llm_arena

2 сент., 10:46

На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны. 1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей. Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и раз...

👁 2.2K

📊 Аналитика

llm_arena

24 дек., 18:36

🎭OpenRouter всё? На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ. Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут. ❌ Дарим пром...

👁 1.9K

📊 Аналитика

llm_arena

10 дек., 15:03

Подборка актуальных материалов по LLM и автоматизации Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства. Делимся подборкой полезных материалов за 2025: 👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше 👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно 👀 Домен-специфичные LLM: как сделать ИИ реально полезным для ва...

👁 1.8K

📊 Аналитика

llm_arena

22 окт., 16:18

👁 Рекомендуем посмотреть выступление CEO LLM Arena — Романа Куцева на конференции Conversations. За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг. ➕Тема напрямую продолжает наше недавнее исследование о том, как специалисты выбирают LLM для своих проектов. 👀 P.S. А если вы ищете где можно попробовать разные модели под свои задачи, то рекомендуем VseLLM. По промокоду SPECIALGIFT мож...

👁 1.8K

📊 Аналитика

llm_arena

12 нояб., 14:28

Polaris Alpha ✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI. Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet. ❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «...

👁 1.7K

📊 Аналитика

llm_arena

30 окт., 15:05

Поделюсь обновлениями проекта VseLLM! Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте. С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью. Если вы работаете с LLM или автоматизацией ...

👁 1.6K📷 photo

📊 Аналитика

llm_arena

25 сент., 09:54

Новый Qwen3-Max и Sentiment control ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа). Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность мод...

👁 1.6K

📊 Аналитика

Типы хуков

Нейтральный16 | 3.5K просм.

Статистика3 | 1.5K просм.

Вопрос1 | 1.9K просм.

Длина постов

Длинные (500-1000)9 | 1.5K просм.

Очень длинные (1000+)7 | 6.2K просм.

Средние (200-500)3 | 1.3K просм.

Короткие (<200)1 | 1.4K просм.

Влияние эмодзи

1.2K

С эмодзи (3)

3.5K

Без эмодзи (17)

-66.8% охвата

Типы контента

🎬

video

8.0K просм.

📝

text

3.2K просм.

📷

photo

1.5K просм.

⚠️ 0/100

Подозрительно высокий охват

#5463

из 13,356 в Технологии