LiveBench - честный замер LLM ЛеКун и Abacus.ai зарелизили 9 — @building_singularity

2.0Kпросмотров

18 июня 2024 г.

📷 ФотоScore: 2.2K

LiveBench - честный замер LLM ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM. Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд. Какие обычно есть проблемы у замеров? 🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете 🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд. 🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные 🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц 🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions) На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что. 💗 Всё в открытом доступе: данные и код для замера @building_singularity

Другие посты @building_singularity