Э
Этика и цифра | Тренды, анализ, истории
@ethics_and_digital_technologies708 подп.
302просмотров
42.7%от подписчиков
26 сентября 2025 г.
questionScore: 332
Так, ну что опять началось-то? Хорошо ведь сидели, уже завтра LLM-ки должны были вылечить все человечество и дать всем по личному врачу 24/7. Но тут пришли ребятки из Microsoft и покопали, насколько модели (gpt 4o, gemini, gpt5), проходящие на ура медицинские тесты, адекватны. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren’t glitches; they expose how today’s benchmarks reward test-taking tricks over medical understanding. Кто бы мог подумать, что модели окажутся натренированы проходить тесты, но по-прежнему "не понимают" медицину, угадывают паттерны (даже если убрать изображения), ищту шорткаты для ответов и убедительно фабрикуют рассуждения. Смена порядка ответов в опросниках, небольшие изменения в изображениях или замена "отвлекающих" ответов -- приводят к существенному снижению результата в тестах. (Предположу, что для других типичных тестовых бенчмарков на профессиональные знания все примерно также.) === Короче, поострожнее там с ллмками для медицины, пока еще сыро.
302
просмотров
1128
символов
Нет
эмодзи
Нет
медиа

Другие посты @ethics_and_digital_technologies

Все посты канала →
Так, ну что опять началось-то? Хорошо ведь сидели, уже завтр — @ethics_and_digital_technologies | PostSniper