Лента новостей → Как открытые LLM-программы соотносятся с GPT-4 по рентгеновским отчетам?
Согласно исследованию, опубликованному 29 октября в журнале Radiology, свободно доступные большие языковые модели (LLM) могут преодолеть ограничения, связанные с фирменными моделями, такими как GPT-4, при извлечении результатов из отчетов о рентгенографии грудной клетки.
Результаты получены в результате сравнения систем LLMS с открытым исходным кодом, таких как Llama, Mistral или Qwen, с GPT-3.5 Turbo и GPT-4 с использованием двух независимых наборов данных свободных текстовых отчетов по радиологии.
«Демонстрируя конфиденциальность, экономическую эффективность и воспроизводимость, эти модели представляют собой альтернативу своим фирменным аналогам для задач классификации и структурирования текста», — отметил ведущий автор Феликс Дорфнер, доктор философии из Гарвардской медицинской школы в Кембридже, штат Массачусетс, и его коллеги.
LLM изучаются на предмет их потенциала для преобразования неструктурированных отчетов по радиологии в структурированные форматы отчетности и для различных задач классификации и резюмирования. Большая часть внимания была сосредоточена на коммерческих LLM, таких как GPT-4, однако эти модели имеют потенциальные недостатки, такие как потенциальные проблемы с конфиденциальностью из-за необходимости связи с удаленными серверами, объяснили авторы.
Напротив, несмотря на свой потенциал, свободно доступные степени магистра права (модели, которые позволяют сохранить конфиденциальность в местных больничных системах) по-прежнему в значительной степени игнорируются при классификации отчетов по радиологии, отметили они.
Чтобы устранить этот пробел в знаниях, группа сравнила модели по их способности точно маркировать наличие множественных результатов, используя два независимых набора данных (набор данных ImaGenome [n = 450] и институциональный набор данных [n = 500]), которые в совокупности включали 950 отчетов о рентгенографии грудной клетки. Диапазон результатов рентгенографии грудной клетки включал ателектаз, перелом, увеличение кардиомедиастинума, поддерживающие устройства, пневмоторакс, пневмонию, плевральный выпот, другие плевральные заболевания, непрозрачность легких, поражение легких, отек, консолидацию и кардиомегалию.
Исследователи использовали как подсказки с малым количеством выстрелов, так и подсказки с нулевым количеством выстрелов. При обучении с малым количеством выстрелов модели получают примеры задания в подсказке вместе с инструкцией по выполнению задания, тогда как при подсказке с нулевым количеством выстрелов предоставляется только инструкция по выполнению задания.
В наборе данных ImaGenome модель с открытым исходным кодом Llama 2–70B показала наивысший результат с микробаллами F1 (баллами точности) 0,97 для обучения без подсказок и 0,97 для подсказок с небольшим количеством подсказок. GPT-4 достигла микробаллов F1 для обучения без подсказок 0,98 и 0,98 для подсказок с небольшим количеством подсказок.
В институциональном наборе данных ансамблевая модель с открытым исходным кодом, разработанная исследователями и состоящая из Llama 2–70B, Mixtral–8 × 7B и Qwen1.5–72B, показала самые высокие баллы: микро-F1-балл 0,96 для подсказок без подсказок и 0,97 для подсказок с небольшим количеством подсказок. GPT-4 достигла микро-F1-баллов 0,98 для подсказок без подсказок и 0,97 для подсказок с небольшим количеством подсказок.
«Эти результаты показывают, что LLM с открытым исходным кодом могут служить жизнеспособной альтернативой GPT-4, поскольку они близки по производительности и предлагают ряд других важных преимуществ», — пишут исследователи.
Например, исследователи предположили, что помимо решения проблем конфиденциальности, классификация отчетов с использованием моделей с открытым исходным кодом не влечет за собой дополнительных затрат, в то время как интерфейс прикладного программирования GPT-4 оплачивается на основе токенов, что может быть весьма затратным.
Кроме того, использование моделей с открытым исходным кодом обеспечивает согласованность и воспроизводимость с течением времени, поскольку модели являются локальными, пишут они.
«Эти результаты подчеркивают потенциал программ магистратуры с открытым исходным кодом для улучшения клинических исследований и практики», — заключила группа.
Полное исследование доступно здесь .
Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.