184просмотров
15.6%от подписчиков
7 февраля 2026 г.
📷 ФотоScore: 202
Бенчмарк Tencent выявил неспособность ИИ-моделей использовать контекст Tencent и Фуданьский университет представили CL-bench — открытый бенчмарк, который оценивает умение языковых моделей извлекать знания из предоставленного контекста, а не полагаться на данные из обучения. Тесты показали тревожно низкие результаты: даже самая мощная модель GPT-5.1 правильно решала лишь около четверти задач, несмотря на то, что вся необходимая информация была явно указана в контексте.