|
[스포츠조선 장종호 기자] 최신 인공지능(AI)모델이 제공하는 의학정보의 정확도가 높아, 환자 교육과 진료실 상담을 보조하는 도구로 활용될 수 있음을 보여주는 연구결과가 나왔다.
각 질문을 GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5 등 5가지 LLM 기반 AI 챗봇에 동일하게 제시해 답변을 받은 뒤, 무릎 인공관절수술을 전문으로 하는 정형외과 전문의 두 명이 정확도와 질문 적합성을 5점 리커트 척도(1.전혀 그렇지 않다, 2.그렇지 않다, 3.보통이다, 4.그렇다, 5.매우 그렇다)로 평가했다. 평가자는 어떤 AI 챗봇이 작성했는지 모르는 상태에서(블라인드) 채점해 편향을 최소화했다.
분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 전체 질문에 대해 평균 4.8점 이상의 높은 정확도를 보였고, 질문과의 관련성도 100%로 평가됐다. 반면 Gemini Advanced는 전체 평균 정확도 4.07점, 관련성 83.7%로 다른 챗봇보다 낮은 성적을 보였으며, 일부 질문에서는 답변 대신 '전문의와 상담하라'는 안내를 제공하는 경향이 관찰됐다. 연구팀은 이러한 경향이 잘못된 정보를 피하려는 안전장치의 영향일 수 있다고 해석하면서도, 환자 교육 도구로 활용할 때는 정보의 양·구체성이 제한될 수 있다고 설명했다.
송시영 교수는 "이번 연구에서 최신 AI 챗봇들이 무릎 인공관절수술과 관련된 의학 정보를 상당히 정확하게 제공할 수 있음을 확인했다"며 "AI 챗봇의 응답은 2024년 8월 시점으로 평가됐으며, AI 모델의 빠른 발전 속도를 고려할 때 이후 버전에서는 성능 차이가 생길 수 있다"고 설명했다.
또한 송 교수는 "이번 연구를 통해 의사의 설명을 보완하는 환자 교육 도구로써 AI 챗봇의 잠재적 유용성을 확인했다"며 "임상 적용 가능성을 높이기 위해 AI 모델을 지속적으로 개선해야 한다"고 덧붙였다.
이 연구는 과학기술정보통신부의 재원으로 한국연구재단(우수신진연구)의 지원을 받아 수행됐다.
장종호 기자 bellho@sportschosun.com
|







