Модель правильно ответила почти на 82% текстовых запросов и менее чем на 48% вопросов с изображениями.

Исследователи, оценивающие производительность ChatGPT-4 Vision, обнаружили, что модель хорошо справилась с текстовыми вопросами радиологического экзамена, но испытывала трудности с точными ответами на вопросы, связанные с изображениями. Результаты исследования были опубликованы в  журнале Radiology .

Chat GPT-4 Vision — первая версия большой языковой модели, которая может интерпретировать как текст, так и изображения.

«ChatGPT-4 показал себя многообещающим инструментом для помощи рентгенологам в таких задачах, как упрощение отчетов по рентгенологии для пациентов и определение подходящего протокола для визуализационных исследований», — сказал Чад Клочко, доктор медицины, рентгенолог опорно-двигательного аппарата и исследователь ИИ в Henry Ford Health в Детройте. «Благодаря возможностям обработки изображений GPT-4 Vision открывает новые потенциальные возможности для применения в радиологии».

Для исследования исследовательская группа доктора Клочко использовала устаревшие вопросы из Американского колледжа радиологии Diagnostic Radiology In-Training Examinations, серии тестов, используемых для оценки прогресса резидентов-радиологов. После исключения дубликатов исследователи использовали 377 вопросов в 13 доменах, включая 195 вопросов, которые были только текстовыми, и 182 вопроса, которые содержали изображение.

GPT-4 Vision ответила правильно на 246 из 377 вопросов, получив общий балл 65,3%. Модель правильно ответила на 81,5% (159) из 195 текстовых запросов и на 47,8% (87) из 182 вопросов с изображениями. 

«Точность 81,5% для текстовых вопросов отражает производительность предшественника модели», — сказал он. «Эта согласованность в текстовых вопросах может указывать на то, что модель имеет определенную степень текстового понимания в радиологии».

Радиология мочеполовой системы была единственной подспециализацией, в которой GPT-4 Vision показала лучшие результаты на вопросах с изображениями (67%, или 10 из 15), чем на текстовых вопросах (57%, или 4 из 7). Модель показала лучшие результаты на текстовых вопросах во всех других подспециализациях.

Модель показала наилучшие результаты на вопросах, основанных на изображениях, в областях грудной клетки и мочеполовой системы, правильно ответив на 69% и 67% вопросов, содержащих изображения, соответственно. Наихудшие результаты модель показала на вопросах, содержащих изображения, в области ядерной медицины, правильно ответив только на 2 из 10 вопросов.

Скриншот примера вопроса из экзаменов ACR Diagnostic Radiology In Training и ответа GPT-4 со зрением

Скриншот примера вопроса из Американского колледжа радиологии, диагностической радиологии, вступительных экзаменов и ответа GPT-4 со зрением (GPT-4V; OpenAI). В этом примере GPT-4V не рассматривает очевидное поражение левого надпочечника и описывает несуществующее поражение печени, но все равно дает правильный ответ.

Оценка влияния подсказок

В исследовании также оценивалось влияние различных подсказок на эффективность GPT-4 Vision.

  • Оригинал: Вы сдаете экзамен по рентгенологии. Изображения вопросов будут загружены. Выберите правильный ответ на каждый вопрос. 
  • Базовый: Выберите единственный лучший ответ на следующий вопрос экзамена по рентгенологии для пенсионеров. 
  • Краткая инструкция: Это вопрос экзамена на должность рентгенолога для пенсионеров, чтобы оценить ваши медицинские знания. Выберите одну лучшую букву ответа и не давайте никаких обоснований для вашего ответа. 
  • Длинная инструкция: Вы сертифицированный рентгенолог-диагност, проходящий обследование. Тщательно оцените каждый вопрос, и если вопрос дополнительно содержит изображение, пожалуйста, внимательно оцените изображение, чтобы ответить на вопрос. Ваш ответ должен включать один лучший вариант ответа. Непредоставление варианта ответа будет считаться неправильным. 
  • Цепочка мыслей: Вы сдаете экзамен на должность пенсионера в исследовательских целях. Учитывая предоставленное изображение, подумайте шаг за шагом для предоставленного вопроса. 

Хотя модель правильно ответила на 183 из 265 вопросов с базовой подсказкой, она отказалась отвечать на 120 вопросов, большинство из которых содержали изображение.

«Явление отказа отвечать на вопросы — это то, чего мы не наблюдали при первоначальном изучении модели», — сказал доктор Клочко.

Краткая инструкция показала самую низкую точность (62,6%).

На текстовых вопросах подсказки в виде цепочки мыслей превзошли длинные инструкции на 6,1%, базовые на 6,8% и оригинальный стиль подсказок на 8,9%. Не было никаких доказательств, позволяющих предположить разницу в производительности между любыми двумя подсказками на вопросах с изображениями.

«Наше исследование показало наличие галлюцинаторных реакций при интерпретации результатов изображений», — сказал доктор Клочко. «Мы отметили тревожную тенденцию модели ставить правильные диагнозы на основе неправильных интерпретаций изображений, что может иметь существенные клинические последствия».

Доктор Клочко сказал, что результаты его исследования подчеркивают необходимость более специализированных и строгих методов оценки эффективности большой языковой модели в задачах радиологии.

«Учитывая текущие проблемы с точной интерпретацией ключевых радиологических изображений и тенденцию к галлюцинаторным реакциям, применимость GPT-4 Vision в таких критически важных для информации областях, как радиология, в ее нынешнем состоянии ограничена», — сказал он.