П
Приближаем сингулярность
@building_singularity925 подп.
2.0Kпросмотров
18 июня 2024 г.
📷 ФотоScore: 2.2K
LiveBench - честный замер LLM ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM. Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд. Какие обычно есть проблемы у замеров? 🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете 🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд. 🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные 🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц 🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions) На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что. 💗 Всё в открытом доступе: данные и код для замера @building_singularity
2.0K
просмотров
868
символов
Нет
эмодзи
Да
медиа

Другие посты @building_singularity

Все посты канала →
LiveBench - честный замер LLM ЛеКун и Abacus.ai зарелизили 9 — @building_singularity | PostSniper