Более трех пятых методов лечения, рекомендованных ChatGPT-3.5 Turbo, по крайней мере частично не соответствуют рекомендациям Национальной комплексной онкологической сети (NCCN), как показало исследование, опубликованное в журнале JAMA Oncology .

Исследователи под руководством Шаня Чена из Mass General Brigham и Гарвардской медицинской школы в Бостоне обнаружили, что чат-бот смешал неверные рекомендации с правильными, что экспертам может быть сложно обнаружить.

«Разработчики должны нести определенную ответственность за распространение технологий, которые не причиняют вреда, а пациенты и врачи должны знать об ограничениях этих технологий», — пишут Чен и соавторы.

Использование ChatGPT и других крупных языковых моделей изучалось в медицинских учреждениях: чат-боты могут проходить медицинские осмотры и общаться с пациентами. Однако было также показано, что они используют вымышленные ресурсы при «написании» медицинских статей, а также предоставляют пациентам неверную информацию.

Чен и его коллеги попытались изучить эффективность ChatGPT-3.5 Turbo для предоставления рекомендаций по лечению рака груди, простаты и легких, соответствующих рекомендациям NCCN.

Они разработали шаблоны подсказок с нулевым шансом для поиска рекомендаций по лечению, которые не предоставляют модели примеров правильных ответов. Эти шаблоны были использованы для создания четырех вариантов подсказок для 26 описаний диагнозов, всего 104 подсказки, которые затем были введены в модель.

Команда сравнила рекомендации чат-бота с рекомендациями NCCN 2021 года, поскольку у ChatGPT ограничение знаний после сентября 2021 года. Результаты подсказок были оценены по пяти критериям, что в общей сложности составило 520 баллов. Команда также измерила соответствие посредством оценки трех сертифицированных онкологов, при этом в качестве окончательного результата принималось правило большинства.

Исследователи обнаружили, что все три онкологи согласились с 322 из 520 (61,9%) оценок ChatGPT-3.5 Turbo. Они также отметили, что разногласия чаще всего возникали, когда результат не был ясен, например, когда не было указано, какие несколько методов лечения следует объединить. Однако исследователи отметили, что это может быть связано с разной интерпретацией рекомендаций среди онкологов.

Команда также обнаружила, что для девяти из 26 (34,6%) описаний диагнозов четыре подсказки дали одинаковые оценки по каждому из пяти критериев оценки. Кроме того, ChatGPT дал как минимум одну рекомендацию для 102 из 104 (98%) запросов. Результаты с рекомендацией включали как минимум одно лечение, соответствующее рекомендациям NCCN. Однако в 35 из 102 (34,3%) этих результатов также рекомендовалось одно или несколько несогласованных методов лечения.

Наконец, исследователи обнаружили, что для 13 из 104 (12,5%) результатов реакции были галлюцинаторными, то есть они не были частью какого-либо рекомендуемого лечения. Там писали, что галлюцинации в основном были рекомендациями по локализованному лечению запущенного заболевания, таргетной терапии или иммунотерапии.

Авторы исследования написали, что на основании этих результатов клиницисты должны сообщить пациентам, что такие чат-боты не являются надежным источником информации о лечении рака.

В сопроводительной редакционной статье Атул Бьютт, доктор медицинских наук из Калифорнийского университета в Сан-Франциско, написал, что «реальный» потенциал больших языковых моделей и искусственного интеллекта заключается в обучении на основе данных о пациентах, клинических данных и результатах результатов от «самых лучших» специалистов. центрах, а затем доставлять эти цифровые инструменты пациентам. Однако он отметил, что эти алгоритмы необходимо будет «тщательно» контролировать по мере их проникновения в системы здравоохранения.

«Пришло время перестать думать об ИИ как о пилотных проектах, которые «хорошо иметь», и начать понимать, что нам нужен ИИ как «масштабируемая привилегия» для всех пациентов», — написал Бьютт.

Полную версию исследования можно найти здесь .

Источник