😮‍💨 Почему нельзя доверять Chatbot Arena Ведущие исследова — @llm_newz

1.9Kпросмотров

2 мая 2025 г.

📷 ФотоScore: 2.1K

😮‍💨 Почему нельзя доверять Chatbot Arena Ведущие исследователи ИИ из DeepMind и Cohere изучили популярную арену для LLM. Они обнаружили, что из-за предрелизного тестирования модели могут оптимизироваться не под реальные задачи, а под вкусы аудитории арены. Бывший глава АИ в Tesla Андрей Карпатый подтвердил: ☹️ Модель Gemini заняла 1 место — но в реальности была хуже. ☹️ Claude 3.5 — хорош в реальных задачах, но в арене почему-то далеко внизу. ⭐️ Команда LM Arena ответила на эти комментарии: 🔵Мы делаем ставку на человеческие предпочтения, а не «объективные метрики». 🔵Планируем усилить методику: больше разнообразия, активное сэмплирование, открытые данные 🔵Meta в том числе использует платформу для тестирования и получения обратной связи перед выпуском своих моделей. Что делать: 📎 В качестве альтернативы Карпатый предлагает смотреть на OpenRouter — там компании выбирают себе модель под реальные бизнес-задачи. 📎 Я рекомендую обратить внимание на бенчмарк от Рината — независимые тесты под конкретные кейсы

Другие посты @llm_newz