671просмотров
29 сентября 2025 г.
📷 ФотоScore: 738
Пока в AI чатах бурно обсуждают новые плюшки от антропиков: свежая модель Sonnet 4.5, обновленный Claude Code 2.0, и SDK для создания кодовых агентов. ⭐ Я же делюсь результатами по бенчмарку оценки качества извлечения данных. Напомню, я убрал из процесса этап поиска и подавал моделям контекст со страниц напрямую, чтобы сфокусироваться именно на их аналитических способностях. Контекст был ограничен 10 000 токенов для всех. РЕЗУЛЬТАТЫ
Лидерство показала openai/gpt-5 в принципе было ожидаемым, но прям очень хорошо себя показала опенсорсная qwen/qwen3-next-80b-a3b-thinking, встав в один ряд с топовыми LLM. Это действительно обнадеживает 👀 Если рассматривать другие опенсорсные модели, то qwen3-14b и qwen3-30b-a3b тоже выглядят достойно. Но Qwen Next 80B - это уже заявка на высшую лигу. Тут я хочу отметить, что это результаты одного прогона, поэтому рейтинг возможно будет еще плавать. Сейчас я вручную анализирую вопросы, на которые не ответила ни одна модель. Есть гипотеза, что в ряде случаев ответ просто не попал в ограниченный контекст. Также забавное наблюдение: x-ai/grok-4 и его fast-версия показали абсолютно идентичные результаты. Предыдущие посты https://t.me/filippovd_ai/70
https://t.me/filippovd_ai/71
https://t.me/filippovd_ai/72
https://t.me/filippovd_ai/75