Исследование подчеркивает растущий потенциал больших языковых моделей в радиологии

Согласно двум новым исследованиям, опубликованным в журнале Radiology, последняя версия ChatGPT прошла экзамен в стиле радиологической комиссии, подчеркнув потенциал больших языковых моделей, но также выявив ограничения, препятствующие надежности .

ChatGPT — это чат-бот с искусственным интеллектом, который использует модель глубокого обучения для распознавания шаблонов и взаимосвязей между словами в своих обширных обучающих данных, чтобы генерировать ответы, подобные человеческим, на основе подсказки. Но поскольку в его обучающих данных нет источника истины, инструмент может генерировать фактически неверные ответы.

«Использование больших языковых моделей, таких как ChatGPT, стремительно растет и будет только расти», — сказал ведущий автор Раджеш Бхайана, доктор медицинских наук, FRCPC, абдоминальный рентгенолог и руководитель отдела технологий Университета медицинской визуализации Торонто, больница общего профиля Торонто. «Наше исследование дает представление о производительности ChatGPT в контексте радиологии, подчеркивая невероятный потенциал больших языковых моделей, а также текущие ограничения, которые делают его ненадежным».

ChatGPT недавно был назван самым быстрорастущим потребительским приложением в истории, и подобные чат-боты внедряются в популярные поисковые системы, такие как Google и Bing, которые используются врачами и пациентами для поиска медицинской информации, отметил д-р Бхаяна.

Чтобы оценить его эффективность в ответах на экзаменационные вопросы совета рентгенологов и изучить сильные и слабые стороны, д-р Бхаяна и его коллеги сначала протестировали ChatGPT на основе GPT-3.5, в настоящее время наиболее часто используемой версии. Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.

Вопросы не включали изображения и были сгруппированы по типам вопросов, чтобы получить представление о производительности: мышление более низкого порядка (воспоминание знаний, базовое понимание) и более высокого порядка (применение, анализ, синтез). Вопросы мышления более высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием).

Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в языке в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде. Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89).

В частности, он боролся с вопросами более высокого порядка, включая описание результатов визуализации (61%, 28 из 46), расчет и классификацию (25%, 2 из 8) и применение концепций (30%, 3 из 10). Его плохие результаты в вопросах мышления более высокого порядка неудивительны, учитывая отсутствие предварительной подготовки, связанной с радиологией.

Bhayana Radiology Рис. 3 ChatGPT

Ответ ChatGPT на классификационный вопрос, связанный с системой отчетов и данных о тиреоидных изображениях (TI-RADS). Модель выбрала неверный ответ (вариант Б, TI-RADS 3). Поскольку поражение солидное (2 балла), гипоэхогенное (2 балла) и имеет макрокальцинаты (1 балл), это соответствует поражению TI-RADS 4 (правильный ответ — вариант С).

https://doi.org/10.1148/radiol.230582 © РСНА, 2023 г.

Проверка фактов по-прежнему крайне важна

GPT-4 был выпущен в марте 2023 года в ограниченной форме для платных пользователей, в частности, заявляя, что он обладает улучшенными расширенными возможностями рассуждений по сравнению с GPT-3.5.

В последующем исследовании GPT-4 правильно ответил на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%), в частности, в вопросах, связанных с описанием результатов визуализации (85%) и применением понятий (90%).

Полученные данные свидетельствуют о том, что заявленные улучшенные способности GPT-4 к расширенным рассуждениям приводят к повышению производительности в контексте радиологии. Они также предлагают улучшенное контекстуальное понимание терминологии, относящейся к радиологии, включая описания изображений, что имеет решающее значение для обеспечения возможности будущих последующих приложений.

«Наше исследование демонстрирует впечатляющее улучшение производительности ChatGPT в радиологии за короткий период времени, подчеркивая растущий потенциал больших языковых моделей в этом контексте», — сказал д-р Бхаяна.

GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает вопросы, связанные с его надежностью для сбора информации.

«Сначала мы были удивлены точными и уверенными ответами ChatGPT на некоторые сложные радиологические вопросы, но затем в равной степени были удивлены некоторыми очень нелогичными и неточными утверждениями», — сказал д-р Бхаяна. «Конечно, учитывая, как работают эти модели, неточные ответы не должны вызывать особого удивления».

Опасная тенденция ChatGPT давать неточные ответы, называемые галлюцинациями, менее распространена в GPT-4, но в настоящее время все еще ограничивает возможности использования в медицинском образовании и практике.

Оба исследования показали, что ChatGPT постоянно использует уверенный язык, даже если он неправильный. Это особенно опасно, если полагаться исключительно на информацию, отмечает доктор Бхаяна, особенно для новичков, которые могут не распознать уверенные неправильные ответы как неточные.

«Для меня это самое большое ограничение. В настоящее время ChatGPT лучше всего использовать для поиска идей, помощи в написании медицинских текстов и обобщении данных. Если он используется для быстрого запоминания информации, его всегда необходимо проверять», — сказал доктор Бхаяна.

Источник