П
ПДС
@politicalds651 подп.
298просмотров
45.8%от подписчиков
15 декабря 2025 г.
Score: 328
🇺🇳 Большие языковые модели делают инженеры. Поэтому основные тесты, на которых проверяется их качество, - математика и программирование. На этих же задачах они лучше всего работают. UNBench - первый бенчмарк (GitHub), заточенный под МО, основанный на голосовании в Совбезе ООН. Задачи, по которым идёт проверка моделей: 1. Оценка выбора соавторов. 2. Оценка голосования. 3. Оценка того, будет ли проект резолюции принят. 4. Оценка сгенерированного заявления представителей членов СБ. #пдс_датасет
298
просмотров
499
символов
Нет
эмодзи
Нет
медиа

Другие посты @politicalds

Все посты канала →
🇺🇳 Большие языковые модели делают инженеры. Поэтому основн — @politicalds | PostSniper