Лента новостей → Оптимизированный ChatGPT Turbo успешно сдает экзамен по рентгенологии
По данным группы из Университета Торонто, коммерчески доступная поисковая система на основе искусственного интеллекта повысила производительность последней модели ChatGPT и обеспечила еще один «скачок вперед» для технологии при тестировании на вопросах в стиле рентгенологического экзамена.
Команда под руководством Раджеша Бхаяны, доктора медицины, протестировала Perplexity Pro с ChatGPT Turbo на 150 текстовых вопросах с множественным выбором, которые соответствовали стилю, содержанию и сложности экзаменов Канадского королевского колледжа и Американского совета по радиологии. Модель ответила правильно на 90% вопросов.
«Наши результаты иллюстрируют мощный потенциал оптимизированных систем [поиск-дополненная генерация] в радиологии», — написала группа. Исследование было опубликовано в Radiology .
В предыдущих исследованиях GPT-4 показал хорошие результаты на рентгенологических экзаменах, несмотря на некоторые нелогичные и неточные утверждения или галлюцинации, по словам авторов. С тех пор были выпущены GPT Turbo, а также Perplexity Pro, в котором реализована технология генерации дополненных поиском данных (RAG), объяснили авторы.
RAG — это метод оптимизации, который может обосновать ответы больших языковых моделей (LLM), таких как ChatGPT Turbo, в дополнительной высококачественной информации. При совместном использовании GPT Turbo генерирует ответы, в то время как Perplexity извлекает релевантную информацию для улучшения этих ответов.
Группа предположила, что использование RAG для уменьшения галлюцинаций LLM в радиологии может в дальнейшем способствовать появлению эффективных приложений, таких как второй пилот рентгенолога, который будет точно отвечать на вопросы рентгенолога во время составления отчетов.
Для проверки этих возможностей исследователи сравнили производительность Perplexity Pro с GPT-4 Turbo и ChatGPT-4 на тех же 150 текстовых вопросах по радиологии с множественным выбором. Производительность оценивалась в целом, по типу вопроса и по теме и сравнивалась с использованием теста Макнемара.
Согласно результатам, Perplexity с ChatGPT Turbo ответил на 90% (135 из 150) вопросов правильно, существенно превзойдя ChatGPT-4, который набрал 79% (118 из 150). Дальнейший анализ показал, что Perplexity с ChatGPT Turbo ответил на 92% вопросов низшего порядка (56 из 61) и 89% вопросов высшего порядка (79 из 89), в то время как ChatGPT-4 набрал 79% в обоих этих подмножествах.
«Оптимизированная веб-платформа RAG от Perplexity позволила сделать еще один шаг вперед в производительности рентгенологического обследования без использования изображений», — написала группа.
Хотя Perplexity не является специализированным для радиологии, он отдает приоритет авторитетным источникам в сети и использует LLM для оптимизации поиска из этих источников при формировании ответов. Специфические для радиологии системы, обогащенные высококачественными радиологическими ресурсами, могут еще больше сократить галлюцинации LLM и повысить производительность для случаев использования радиологии, пишут авторы.
Однако они отметили, что эффективность экзамена в формате экзаменационной комиссии не влияет напрямую на клиническую полезность.
«Потенциальные дальнейшие улучшения следует изучать с использованием высококачественных данных, характерных для радиологии, и для мультимодальных приложений», — заключила группа.
Полное исследование можно найти здесь .
Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.