Как показали результаты исследования, «машина» существенно уступает практикующим врачам. LLM обработали 80 диагнозов, и наибольшее количество ошибок допустили при определении холецистита и дивертикулита: если верность диагнозов ИИ варьировалась от 13% до 68%, то точность определения медиками названных диагнозов составила от 84% до 86%.
Выяснено, что с точностью врачебных решений LLM успешно конкурируют только при выявлении аппендицита: некоторые языковые модели показали лучший результат, чем клиницисты – на 3-4%. Авторы отмечают, что на сегодняшний день LLM не имеют «диагностического диапазона» в отличие от медиков.
Также исследователи установили, что ИИ часто не учитывает предписанные диагностические рекомендации для назначения обследований, нередко игнорируют содержание клинических протоколов, а также неточно интерпретируют результаты лабораторных исследований.
Кроме того, тестируя ИИ на способность следовать инструкциям, подбирать и компилировать информацию для упрощения работы врачей, авторы выявили, что LLM ошибается в алгоритмах в 25-50% случаев, а в 20% предлагает применить существующие методы. Также при несущественном изменении формулировки запроса результаты отличались.
Если предоставить ИИ доступ к большому количеству анализов, точность снижается. Наилучшие результаты языковые модели демонстрируют при предоставлении лишь определенного списка обследований.
Авторы подчеркнули, что ранее возможности искусственного интеллекта в медицине оценивались в достаточно простых медицинских контекстах – в таких случаях LLM демонстрировали лучшие результаты в сравнении с клиницистами.
Ни сегодня, ни в ближайшем будущем языковые модели не в состоянии стать заменой практикующему специалисту, однако, по мере технологического развития области ИИ может стать прекрасным помощником, облегчающим работу врача и высвобождающим самое ценное – время.
Будьте в курсе ключевых новостей из сферы восстановительной медицины – подпишитесь на Telegram-канал REAMED!