
GPT-4V, модель искусственного интеллекта, часто допускала ошибки при описании медицинского изображения и объяснении своих доводов в пользу диагноза — даже в тех случаях, когда она делала правильный окончательный выбор. NIH/NLM
Исследователи из Национального института здравоохранения (NIH) обнаружили, что модель искусственного интеллекта (ИИ) с высокой точностью решила вопросы медицинской викторины, разработанной для проверки способности медицинских работников диагностировать пациентов на основе клинических изображений и краткого текстового резюме. Однако врачи-эксперты обнаружили, что модель ИИ допускала ошибки при описании изображений и объяснении того, как ее принятие решений привело к правильному ответу. Результаты, проливающие свет на потенциал ИИ в клинических условиях, были опубликованы в npj Digital Medicine . Исследование проводилось исследователями из Национальной медицинской библиотеки (NLM) NIH и Weill Cornell Medicine, Нью-Йорк.
«Интеграция ИИ в здравоохранение имеет большие перспективы как инструмент, помогающий медицинским работникам быстрее диагностировать пациентов, позволяя им раньше начинать лечение», — сказал исполняющий обязанности директора NLM Стивен Шерри, доктор философии. «Однако, как показывает это исследование, ИИ пока недостаточно продвинут, чтобы заменить человеческий опыт, который имеет решающее значение для точной диагностики».
Модель ИИ и врачи-люди ответили на вопросы из конкурса Image Challenge журнала New England Journal of Medicine (NEJM) . Конкурс представляет собой онлайн-викторину, которая предоставляет реальные клинические изображения и краткое текстовое описание, включающее сведения о симптомах и состоянии пациента, а затем просит пользователей выбрать правильный диагноз из нескольких вариантов ответов.
Исследователи поручили модели ИИ ответить на 207 вопросов по изображению и предоставить письменное обоснование для обоснования каждого ответа. В подсказке было указано, что обоснование должно включать описание изображения, резюме соответствующих медицинских знаний и пошаговое обоснование того, как модель выбрала ответ.
Было набрано девять врачей из разных учреждений, каждый из которых имел свою медицинскую специальность, и они ответили на свои вопросы сначала в обстановке «закрытой книги» (без ссылок на какие-либо внешние материалы, такие как онлайн-ресурсы), а затем в обстановке «открытой книги» (используя внешние ресурсы). Затем исследователи предоставили врачам правильный ответ вместе с ответом модели ИИ и соответствующим обоснованием. Наконец, врачей попросили оценить способность модели ИИ описывать изображение, обобщать соответствующие медицинские знания и предоставлять свои пошаговые рассуждения.
Исследователи обнаружили, что модель ИИ и врачи показали высокие результаты в выборе правильного диагноза. Интересно, что модель ИИ выбирала правильный диагноз чаще, чем врачи в условиях закрытой книги, в то время как врачи с инструментами открытой книги показали лучшие результаты, чем модель ИИ, особенно при ответах на самые сложные вопросы.
Важно отметить, что на основе оценок врачей модель ИИ часто допускала ошибки при описании медицинского изображения и объяснении своих рассуждений, лежащих в основе диагноза, — даже в тех случаях, когда она делала правильный окончательный выбор. В одном примере модели ИИ была предоставлена фотография руки пациента с двумя поражениями. Врач легко распознал бы, что оба поражения были вызваны одним и тем же состоянием. Однако, поскольку поражения были представлены под разными углами — вызывая иллюзию разных цветов и форм — модель ИИ не смогла распознать, что оба поражения могли быть связаны с одним и тем же диагнозом.
Исследователи утверждают, что эти результаты подтверждают важность дальнейшей оценки мультимодальной технологии ИИ перед ее внедрением в клиническую практику.
«Эта технология может помочь врачам расширить свои возможности с помощью информации, полученной на основе данных, что может привести к улучшению принятия клинических решений», — сказал старший исследователь NLM и соавтор исследования Чжиюн Лу, доктор философии. «Понимание рисков и ограничений этой технологии имеет важное значение для использования ее потенциала в медицине».
В исследовании использовалась модель ИИ, известная как GPT-4V (Generative Pre-trained Transformer 4 with Vision), которая является «мультимодальной моделью ИИ», способной обрабатывать комбинации различных типов данных, включая текст и изображения. Исследователи отмечают, что, хотя это небольшое исследование, оно проливает свет на потенциал мультимодального ИИ для помощи врачам в принятии медицинских решений. Необходимы дополнительные исследования, чтобы понять, как такие модели соотносятся со способностью врачей диагностировать пациентов.
Соавторами исследования стали сотрудники Национального института глаза и Клинического центра NIH; Питтсбургского университета; Юго-западного медицинского центра Техасского университета в Далласе; Медицинской школы Гроссмана Нью-Йоркского университета в Нью-Йорке; Гарвардской медицинской школы и Массачусетской больницы общего профиля в Бостоне; Медицинской школы Университета Кейс Вестерн Резерв в Кливленде; Калифорнийского университета в Сан-Диего, Ла-Хойя; и Университета Арканзаса в Литл-Роке.
Национальная медицинская библиотека (NLM) является лидером в области исследований в области биомедицинской информатики и науки о данных и крупнейшей в мире биомедицинской библиотекой. NLM проводит и поддерживает исследования в области методов записи, хранения, извлечения, сохранения и передачи медицинской информации. NLM создает ресурсы и инструменты, которые используются миллиарды раз в год миллионами людей для доступа и анализа информации по молекулярной биологии, биотехнологии, токсикологии, охране окружающей среды и услугам здравоохранения.
Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.