По данным группы из Университета Торонто, коммерчески доступная поисковая система на основе искусственного интеллекта повысила производительность последней модели ChatGPT и обеспечила еще один «скачок вперед» для технологии при тестировании на вопросах в стиле рентгенологического экзамена.

Команда под руководством Раджеша Бхаяны, доктора медицины, протестировала Perplexity Pro с ChatGPT Turbo на 150 текстовых вопросах с множественным выбором, которые соответствовали стилю, содержанию и сложности экзаменов Канадского королевского колледжа и Американского совета по радиологии. Модель ответила правильно на 90% вопросов.

«Наши результаты иллюстрируют мощный потенциал оптимизированных систем [поиск-дополненная генерация] в радиологии», — написала группа. Исследование было опубликовано в Radiology .

В предыдущих исследованиях GPT-4 показал хорошие результаты на рентгенологических экзаменах, несмотря на некоторые нелогичные и неточные утверждения или галлюцинации, по словам авторов. С тех пор были выпущены GPT Turbo, а также Perplexity Pro, в котором реализована технология генерации дополненных поиском данных (RAG), объяснили авторы.

RAG — это метод оптимизации, который может обосновать ответы больших языковых моделей (LLM), таких как ChatGPT Turbo, в дополнительной высококачественной информации. При совместном использовании GPT Turbo генерирует ответы, в то время как Perplexity извлекает релевантную информацию для улучшения этих ответов.

Группа предположила, что использование RAG для уменьшения галлюцинаций LLM в радиологии может в дальнейшем способствовать появлению эффективных приложений, таких как второй пилот рентгенолога, который будет точно отвечать на вопросы рентгенолога во время составления отчетов.

Для проверки этих возможностей исследователи сравнили производительность Perplexity Pro с GPT-4 Turbo и ChatGPT-4 на тех же 150 текстовых вопросах по радиологии с множественным выбором. Производительность оценивалась в целом, по типу вопроса и по теме и сравнивалась с использованием теста Макнемара.

Согласно результатам, Perplexity с ChatGPT Turbo ответил на 90% (135 из 150) вопросов правильно, существенно превзойдя ChatGPT-4, который набрал 79% (118 из 150). Дальнейший анализ показал, что Perplexity с ChatGPT Turbo ответил на 92% вопросов низшего порядка (56 из 61) и 89% вопросов высшего порядка (79 из 89), в то время как ChatGPT-4 набрал 79% в обоих этих подмножествах.

«Оптимизированная веб-платформа RAG от Perplexity позволила сделать еще один шаг вперед в производительности рентгенологического обследования без использования изображений», — написала группа.

Хотя Perplexity не является специализированным для радиологии, он отдает приоритет авторитетным источникам в сети и использует LLM для оптимизации поиска из этих источников при формировании ответов. Специфические для радиологии системы, обогащенные высококачественными радиологическими ресурсами, могут еще больше сократить галлюцинации LLM и повысить производительность для случаев использования радиологии, пишут авторы.

Однако они отметили, что эффективность экзамена в формате экзаменационной комиссии не влияет напрямую на клиническую полезность.

«Потенциальные дальнейшие улучшения следует изучать с использованием высококачественных данных, характерных для радиологии, и для мультимодальных приложений», — заключила группа.

Полное исследование можно найти здесь .

Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.