Н
Никита про LLM
@llm_newz1.3K подп.
1.9Kпросмотров
2 мая 2025 г.
📷 ФотоScore: 2.1K
😮‍💨 Почему нельзя доверять Chatbot Arena Ведущие исследователи ИИ из DeepMind и Cohere изучили популярную арену для LLM. Они обнаружили, что из-за предрелизного тестирования модели могут оптимизироваться не под реальные задачи, а под вкусы аудитории арены. Бывший глава АИ в Tesla Андрей Карпатый подтвердил: ☹️ Модель Gemini заняла 1 место — но в реальности была хуже. ☹️ Claude 3.5 — хорош в реальных задачах, но в арене почему-то далеко внизу. ⭐️ Команда LM Arena ответила на эти комментарии: 🔵Мы делаем ставку на человеческие предпочтения, а не «объективные метрики». 🔵Планируем усилить методику: больше разнообразия, активное сэмплирование, открытые данные 🔵Meta в том числе использует платформу для тестирования и получения обратной связи перед выпуском своих моделей. Что делать: 📎 В качестве альтернативы Карпатый предлагает смотреть на OpenRouter — там компании выбирают себе модель под реальные бизнес-задачи. 📎 Я рекомендую обратить внимание на бенчмарк от Рината — независимые тесты под конкретные кейсы
1.9K
просмотров
1020
символов
Да
эмодзи
Да
медиа

Другие посты @llm_newz

Все посты канала →
😮‍💨 Почему нельзя доверять Chatbot Arena Ведущие исследова — @llm_newz | PostSniper