1.9Kпросмотров
2 мая 2025 г.
📷 ФотоScore: 2.1K
😮💨 Почему нельзя доверять Chatbot Arena Ведущие исследователи ИИ из DeepMind и Cohere изучили популярную арену для LLM. Они обнаружили, что из-за предрелизного тестирования модели могут оптимизироваться не под реальные задачи, а под вкусы аудитории арены. Бывший глава АИ в Tesla Андрей Карпатый подтвердил:
☹️ Модель Gemini заняла 1 место — но в реальности была хуже.
☹️ Claude 3.5 — хорош в реальных задачах, но в арене почему-то далеко внизу. ⭐️ Команда LM Arena ответила на эти комментарии:
🔵Мы делаем ставку на человеческие предпочтения, а не «объективные метрики».
🔵Планируем усилить методику: больше разнообразия, активное сэмплирование, открытые данные
🔵Meta в том числе использует платформу для тестирования и получения обратной связи перед выпуском своих моделей. Что делать: 📎 В качестве альтернативы Карпатый предлагает смотреть на OpenRouter — там компании выбирают себе модель под реальные бизнес-задачи.
📎 Я рекомендую обратить внимание на бенчмарк от Рината — независимые тесты под конкретные кейсы