Л
Лечим эйай
@lechim_ai490 подп.
935просмотров
8 июля 2025 г.
📷 ФотоScore: 1.0K
Что-то новенькое в MedTech Недавно Microsoft выпустили статью с громким заголовком The Path to Medical Superintelligence. Они выложили статью в своем блоге, добавив также pre-print, раскрывающий детали их работы. Мне она показалась прямо очень "новой" с точки зрения подхода, поэтому хотелось бы сегодня рассказать об основных идеях. Сейчас одна из ключевых задач в развитии ИИ - это развитие бенчмарков. С каждым годом становится все сложнее и сложнее замерять качество, чтобы продолжать видеть динамику. Еще сильнее это касается отраслевых направлений применения, в частности медицины. То, что модели могут проходить тесты с выбором из 4 вариантов ответов, никого из сферы абсолютно не удивляет, хотя некоторые до сих пор стараются на этом строить свою pr-стратегию. Что сделали ребята из Microsoft: 1. Крутой интерактивный benchmark (SD Bench) 2. Мультиагентную систему для диагностики (MAI-DxO) SD Bench Авторы взяли медицинский журнал NEJM, в котором еженедельно публикуются сложные клинические случаи и на основе этого построили интерактивный бенчмарк. Ключевая особенность бенчмарка заключается в том, что модель для диагностики должна последовательно задавать вопросы (от того и название статьи Sequential Diagnosis with Language Models), чтобы дойти в итоге до финального заключения. Модель взаимодействует с вопросно ответной системой для уточнения деталей, как будто бы врач общается с пациентом, или назначает ему диагностику. На каждом шаге модель может выбрать любое действие из трех: 1. Задать вопрос. Сбор анамнеза. 2. Отправить на диагностику. Инструментальная, лабораторная и тд. 3. Поставить диагноз (закончить). Частью бенчмарка является модель Gatekeeper, которая имеет доступ ко всей истории болезни (gt) и выдает только те знания, которые у нее запросили. Если вдруг ответа на какой-то вопрос в истории болезни нет, то она генерирует правдоподобные данные (это тонкое место, но бить в него не будем). В тот момент, когда все необходимые знания получены - ставится диагноз. Далее подключается вторая модель Judge, которая уже ставит оценку на сколько диагноз соответствует действительности. Казалось бы, в чем тогда проблема спросить Gatekeeper-а вообще все и правильно ответить? Помимо качества диагностики мы также оцениваем и стоимость проведенных махинаций с помощью модели Cost Estimator. Чем больше исследований ты проведешь и больше вопросов задашь - тем больше ты потратишь денег, а значит хуже себя покажешь. Авторы в качестве оценки трат берут таблицу стоимости диагностики из какой-то клиники. Подобный подход идеально моделирует то, как работают врачи, что кардинально отличается от "выбери один из 4 вариантов ответа". Теперь вы можете, например, добавлять ограничения на бюджет (авторы так и делали). Добавлять помимо стоимости другие метрики: время, загруженность больницы, доступность препаратов и тд, тем самым создавая полноценную модель больницы. MAI-DxO Тут ничего особо интересного. Авторы перепробовали большинство современных моделей: GPT-3.5-turbo, GPT-4o, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano, o3, o4-mini, Claude 4 Sonnet, Claude 4 Opus, Gemini 2.5 Pro, Gemini 2.5 Flash, Grok-3, Grok-3-mini, Llama 4 Maverick, and Deepseek-R1 Сначала изучили как они будут работать AS IS. Конечно, сравнили с реальными врачами (победа ИИ без шансов, даже разгонять не хочу, дело в особенностях бенчмарка). А после они добавили одну фишку, которая улучшила любое решение, вне зависимости от выбора модели в качестве базовой - мультиагентную систему, моделирующую консилиум 5 врачей, каждый со своими особенностями и задачами, такой подход завелся круче всех (имена говорящие): - Dr. Hypothesis - Dr. Test-Chooser - Dr. Challenger - Dr. Stewardship - Dr. Checklist Думаю, что данный подход построения интерактивных бенчмарков - это будущее. Если понравился контент с разбором статей от меня - дай знать! P.S. В конкурсе, в котором я участвую, началось голосование. Если вдруг у вас есть желание меня поддержать - нужно сделать две вещи: 1) Подписаться на @tg_cont
935
просмотров
4000
символов
Нет
эмодзи
Да
медиа

Другие посты @lechim_ai

Все посты канала →
Что-то новенькое в MedTech Недавно Microsoft выпустили стать — @lechim_ai | PostSniper