🇺🇳 Большие языковые модели делают инженеры. Поэтому основн — @politicalds

@politicalds651 подп.

298просмотров

45.8%от подписчиков

15 декабря 2025 г.

Score: 328

🇺🇳 Большие языковые модели делают инженеры. Поэтому основные тесты, на которых проверяется их качество, - математика и программирование. На этих же задачах они лучше всего работают. UNBench - первый бенчмарк (GitHub), заточенный под МО, основанный на голосовании в Совбезе ООН. Задачи, по которым идёт проверка моделей: 1. Оценка выбора соавторов. 2. Оценка голосования. 3. Оценка того, будет ли проект резолюции принят. 4. Оценка сгенерированного заявления представителей членов СБ. #пдс_датасет

298

просмотров

499

символов

Нет

эмодзи

Нет

медиа

Другие посты @politicalds

💪🗺 Мы обычно рассказываем про чужие наработки, но сегодня исключение. 4 год подряд проведен экспертн👁 323 🔴 Прямо сейчас проходит презентация второго издания учебника «Международная безопасность в эпоху иск👁 303 Задача на внимательность или как поймать Госдепартамент на злоупотреблении ИИ Посмотрите внимательн👁 301 👁 296 В рубрике интересных наборов данных, данные по международной торговли из проекта PortWatch Междунаро👁 290

Все посты канала →

Аналитика канала База постов