ChatGPT пропускает половину экстренных случаев! Заголовок, к — @Demchinsky

732просмотров

54.0%от подписчиков

2 марта 2026 г.

📷 ФотоScore: 805

ChatGPT пропускает половину экстренных случаев! Заголовок, который продает адреналин и на который, конечно же, сразу клюют доктора, потому что ИИ вдруг так элементарно стал удобно тупым. Но не все так просто. В абстракте публикации Nature Medicine по сути заявляется, что LLM даёт неровную точность триажа, и на "краях" (остаться дома против немедленной госпитализации) возможны систематические промахи. Это звучит как готовая сенсация и многие, конечно же, цепляются именно за эту фразу с вкусными процентами, потому что удобно, быстро и цитируемо. Проблема в том, что полная методология по основной ссылке закрыта, поэтому предлагаю сделать скучную, но взрослую вещь: зайти не в заголовок, а под капот через официальные приложения издателя. Дополнительная информация, в которой виден каркас дизайна: 60 клинических виньеток, 16 условий, всего 960 прогонов, фиксированные правила выбора A/B/C/D и критичная для интерпретации деталь - тестирование происходило 9–11 января 2026, то есть вопрос “какая именно версия модели использовалась" не риторический, а методологический. Почему? Да потому что 11 числа автоматически стала использоваться современная модель 5.2, а до этого была предыдущая - 5.1 и уже тут появляется грубое нарушение в сравнении. Есть еще файл ревью, в котором авторы дают ссылку на гитхаб с воспроизводящими файлами рукописи. А теперь где может прятаться желтизна даже при честных авторах. Во-первых, используется один шаблон промпта без анализа чувствительности, в итоге результат легко становится свойством формулировки, а не качества LLM. Во-вторых, структура кейсов: громкий процент может держаться на узком наборе сценариев (в рецензиях это обычно и разбирают и здесь это как раз тот документ, который стоит читать). В-третьих, принудительный дискретный выход (A/B/C/D без уточняющих вопросов) - это валидный стресс-тест интерфейса, но слабая модель реального взаимодействия врача с инструментом. Короче маяк простой: если мы хотим спорить не эмоциями, а ответственностью, то спор надо вести по воспроизводимым данным и там станет видно, это проблема “LLM как такового” или проблема “как люди (в том числе врачи) им пользуются” (через одно место). #LLM #ИИ #Демчинский

Другие посты @Demchinsky