Новости ИТ и AI
Google Медицина

Медицинский чат-бот от Google сдал экзамен на получение лицензии врача

2023-07-17 13:10
Чат-бот успешно сдал тест на получение лицензии, отвечая на достаточное количество вопросов, но его ответы не соответствуют ответам врачей, как указывается в исследовании, посвященном работе этого нового чат-бота. Исследование показало, что «Med-PaLM работает обнадеживающе, но по-прежнему уступает врачам».

Джеймс Дэвенпорт, ученый-программист из британского Университета Бата, отмечает большую разницу между ответами на медицинские вопросы и реальной медициной, которая включает в себя диагностику и лечение реальных заболеваний.
Med-PaLM#nbsp;— это большая языковая модель (LLM), созданная для предоставления высококачественных ответов на медицинские вопросы.

Med-PaLM использует мощь крупных языковых моделей Google, которые выровняли с медицинской областью и оценили с помощью медицинских экзаменов, исследований и запросов пользователей. Первая версия Med-PaLM, представленная в конце 2022 года и опубликованная в Nature в июле 2023 года, стала первой системой искусственного интеллекта, которая превзошла минимальный балл на тестах US Medical License Exam (USMLE). Med-PaLM также генерирует точные и полезные тексты для ответов на медицинские вопросы пользователей, что было оценено врачами и пользователями.

В марте 2023 года на ежегодном мероприятии Google Health The Check Up представлена последняя модель, Med-PaLM 2. Med-PaLM 2 достигает точности в 86,5% на вопросах в стиле USMLE, что является прорывом на 19% по сравнению с результатами от Med-PaLM-1. По мнению врачей, длинные ответы модели на медицинские вопросы пользователей значительно улучшились. В ближайшие месяцы Med-PaLM 2 также будет доступна для ограниченного тестирования избранным пользователям Google Cloud для изучения сценариев использования и обмена отзывами.
Ответы на медицинские вопросы: грандиозная задача для ИИ
Прогресс за последнее десятилетие позволил ИИ играть все более важную роль в здравоохранении и медицине. Такие прорывы, как трансформер, позволили масштабировать LLM и другие большие модели до миллиардов параметров, например PaLM, что позволило генеративному ИИ выйти за рамки ограниченного поиска шаблонов, характерного для ранних ИИ, и перейти к созданию новых форм выражения содержания, от речи до научного моделирования.

Разработка ИИ, способного давать точные ответы на медицинские вопросы, является давней проблемой, и за последние несколько десятилетий в этой области было проведено несколько исследований. При всей обширности темы в последнее время популярным эталоном для оценки эффективности ответов на медицинские вопросы стал ответ на вопросы в стиле USMLE.

Пример вопроса тестирования в стиле USMLE.: «Женщина 32 лет пришла на прием к врачу с жалобами на усталость, болезненность молочных желез, учащенное мочеиспускание и периодическую тошноту в течение 2 недель. Последняя менструация была 7 недель назад. В анамнезе — судорожный синдром, лечившийся карбамазепином. Физикальное обследование не выявило никаких отклонений. Тест на беременность по моче положительный. Ребенок подвержен наибольшему риску развития какого из следующих осложнений?
A. Дисплазия почек
B. Менингоцеле
C. Сенсоневральная тугоухость
D. Ясноклеточная карцинома влагалища"


Точный ответ на вопрос требует понимания симптомов, изучения результатов анализов пациента, сложных рассуждений о вероятном диагнозе и, в конечном счете, выбора правильного ответа о том, какое заболевание, тест или лечение наиболее целесообразно. Для успешной работы необходимо сочетание понимания медицинской информации, поиска знаний и рассуждений. Для того чтобы точно и последовательно отвечать на эти вопросы, клиницистам требуются годы обучения.

Возможности генерации больших языковых моделей также позволяют им готовить развернутые ответы на медицинские вопросы потребителей. Однако обеспечение точности, безопасности и полезности ответов моделей является важнейшей исследовательской задачей, особенно в этой критически важной для безопасности области.
Оценка качества ответов
Med-PaLM и Med-PaLM 2 оценивались по эталону, названному «MultiMedQA», который объединяет семь наборов данных ответов на вопросы, охватывающих профессиональные медицинские экзамены, медицинские исследования и потребительские запросы. Med-PaLM стала первой системой искусственного интеллекта, получившей проходной балл на вопросы в стиле USMLE из набора данных MedQA с точностью 67,4%. Med-PaLM 2 еще больше улучшила этот показатель, достигнув 86,5%.

Важно отметить, что в данной работе исследователи не ограничивались точностью ответов на несколько вопросов, а измеряли и улучшали возможности модели при ответе на медицинские вопросы. Длинные ответы модели были протестированы по нескольким критериям, включая научную достоверность, точность, медицинский консенсус, аргументацию, предвзятость и вероятность возможного вреда, которые оценивались клиницистами и неклиницистами из разных стран. И Med-PaLM, и Med-PaLM 2 показали хорошие результаты в трех наборах данных, содержащих вопросы потребительского медицинского характера. В парном исследовании ответы Med-PaLM 2 оказались предпочтительнее ответов врачей по восьми из девяти рассматриваемых вопросов.