302просмотров
42.7%от подписчиков
26 сентября 2025 г.
questionScore: 332
Так, ну что опять началось-то? Хорошо ведь сидели, уже завтра LLM-ки должны были вылечить все человечество и дать всем по личному врачу 24/7. Но тут пришли ребятки из Microsoft и покопали, насколько модели (gpt 4o, gemini, gpt5), проходящие на ура медицинские тесты, адекватны. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren’t glitches; they expose how today’s benchmarks reward test-taking tricks over medical understanding.
Кто бы мог подумать, что модели окажутся натренированы проходить тесты, но по-прежнему "не понимают" медицину, угадывают паттерны (даже если убрать изображения), ищту шорткаты для ответов и убедительно фабрикуют рассуждения. Смена порядка ответов в опросниках, небольшие изменения в изображениях или замена "отвлекающих" ответов -- приводят к существенному снижению результата в тестах. (Предположу, что для других типичных тестовых бенчмарков на профессиональные знания все примерно также.) === Короче, поострожнее там с ллмками для медицины, пока еще сыро.