2.6Kпросмотров
15 мая 2025 г.
stats📷 ФотоScore: 2.8K
Помимо ChatGPT 4.1, которую OpenAI добавила в ChatGPT, есть ещё одна громкая новость, но её почти не заметили. Исправляем ситуацию 😬 Компания представила HealthBench — как вы поняли по названию, OpenAI амбициозно именует это главным медицинским бенчмарком всех времён и народов. В его разработке участвовали 262 врача из 60 стран, проведено 5000 реальных бесед докторов с пациентами. HealthBench проверяет, насколько хорошо модели ИИ работают в реалистичных сценариях оказания медицинской помощи, основываясь на том, что, по мнению врачей, наиболее важно. Можете оценить на скриншоте №2 один из сценариев. OpenAI проверила по бенчу свои и чужие модели, и пришла к выводу, что
o3 превосходит другие модели, включая Claude 3.7 Sonnet и Gemini 2.5 Pro (март 2025 г.). За последние месяцы передовые модели OpenAI улучшились на 28% в HealthBench. Практическая польза бенча для в том, что можно снизить затраты, проверяя разные модели и выбирая для использования оптимальную. Например, GPT-4.1 nano превзошла модель августа 2024 года GPT-4o, несмотря на то, что она в 25 раз дешевле (скриншот 1). С медицинской точки зрения интересно изучение критерия надёжности, который в этой сфере играет решающее значение. Один неправильный ответ может перевесить пользу от всех правильных. OpenAI исследовала надёжность с помощью худшего из N результатов, и сравнила собственные модели (скриншот 3).