348просмотров
27 апреля 2025 г.
📷 ФотоScore: 383
На этой неделе пролетела интригующая новость: Microsoft представила своего «первого врача на нейросетях» — DxGPT. Решил спонтанно протестировать, на что же способен этот новый медицинский ассистент. Не имея медицинского образования, я попросил ChatGPT придумать пару каверзных задач по дифференциальной диагностике, чтобы сравнить, как DxGPT справится с ними на фоне общедоступных нейросетей. Хотелось понять, стоит ли врачам вообще заморачиваться со специализированным DxGPT, или привычные «универсальные» модели делают всё не хуже. Вот пример входного промпта: Мальчик, 3 года. Жалобы на задержку развития, грубые черты лица, гепатоспленомегалию и частые отиты. Назовите три наиболее вероятных диагноза с указанием их приоритетности, рекомендуйте диагностическое исследование для каждого и кратко опишите дальнейший план ведения (до 150 слов). Не знаю, насколько такие вопросы каверзны для нейросети, но это именно те случаи, на которые ориентируется DxGPT по описанию разработчиков. Затем были тесты по болезни Помпе, одному из вариантов муковисцидоза и назначению препарата Zolgensma. В испытаниях участвовали топовые модели: OpenAI o3, Gemini 2.5 Pro, Grok 3 и DeepSeek r1 (поиск через Perplexity), все с подключением интернета и цепочкой размышлений. Оценку результатов всех моделей и DxGPT проводил опять же ChatGPT. Так как оценщиком была модель OpenAI, её результаты убрал из финальной выборки, чтобы избежать предвзятости, хотя они оказались практически идентичны ответам Gemini и Perplexity. 🏆 Итоги тестирования по версии GPT: 1️⃣ Лучшими оказались Perplexity и Gemini 2.5 Pro: точные, подробные и практичные ответы. 2️⃣ Grok дал ответы правильные, но узкие, почти не предлагая конкретных шагов для последующих действий. 3️⃣ DxGPT удобен как быстрый «чеклист», однако точность ответов заметно ниже. Например, два из предложенных диагнозов (болезнь Гоше, Ниман-Пик) плохо соответствовали ключевому признаку «грубые черты лица», а конкретных рекомендаций по обследованиям вообще не было. 🧠 Моё личное впечатление: Есть ли существенная разница между специализированным DxGPT и продвинутыми универсальными моделями? Однозначно да, особенно если речь идёт о глубине проработки и учёте редких, но важных диагнозов. Если выбирать для реальной медицинской практики, то по моему тесту Perplexity, Gemini 2.5 Pro и OpenAI выглядят существенно лучше. У DxGPT интерфейс наполовину графический, оттого кому-то будет удобнее: вместо общения с чатом предлагается кликать на кнопки и отмечать галочки, а уточнять диагноз можно через серию вопросов, а потом скачать PDF. Я отдельно проверил, как DxGPT уточняет уже известные диагнозы с наших проектов, и тут возникло стойкое ощущение, что неспециализированные нейросети справились лучше. DxGPT часто выдавал много лишнего «шума», который только запутывал. Как поиск в справочнике по редким заболеваниям DxGPT в целом заслуживает зачёта. Но если говорить именно о помощи врачу и пациенту в постановке диагноза, то любая продвинутая модель с подключением интернета и цепочкой размышлений будет эффективнее. DxGPT работает быстрее, но только потому, что вообще не ищет информацию в интернете (обычные модели отрабатывают такие запросы секунд за 30, анализируют 35-50 источников за раз). Но настолько ли скорость критична в таких вопросах? Осталось самое важное — дать врачам свободный и бесплатный доступ к мощным моделям с поддержкой русского языка прямо на рабочем месте. Вот бы кто-то этим занялся…
🤔 #тесты #модели @PharmGPT