|
[스포츠조선 장종호 기자] 서울대병원이 흉부 X선만으로 정상·골감소증·골다공증을 분류하는 인공지능(AI) 모델을 개발했다.
서울대병원 가정의학과 박상민 교수팀(김재원 연구원)은 서울대병원 건강증진센터에서 2004~2019년 동안 흉부 X선과 DXA 검사를 모두 받은 여성 1만 4502명의 데이터를 분석해 다양한 파운데이션 기반 AI 모델의 예측 성능과 설명 가능성을 비교한 연구 결과를 28일 발표했다.
AI는 입력된 흉부 X선에서 척추와 늑골 같은 뼈 구조를 중심으로 특징을 추출하고, 이를 기존에 학습된 패턴과 비교해 정상(T-score ≥ -1.0), 골감소증(-2.5 < T-score < -1.0), 골다공증(T-score ≤ -2.5) 중 어떤 상태와 가장 유사한지를 판단한다.
연구팀은 여기에 더해 AI가 실제로 어떤 뼈를 근거로 삼아 판단하는지까지 확인할 수 있도록 '설명 가능성' 평가 체계를 설계했다. 뼈를 모두 가린 상태에서 특정 뼈 부위를 추가해 성능이 얼마나 향상하는지 확인하는 '차단 분석 방식(Δbone)'과 Grad-CAM으로 나타난 AI의 주목 영역이 실제 뼈 위치와 얼마나 일치하는지를 계산하는 '유의성 지도 방식(IoUbone)'을 통해, AI가 임상적으로 중요한 뼈 구조를 근거로 판단하는지를 정량적으로 검증했다.
그 결과, DINOv2 모델에 LoRA 방식을 적용한 모델이 AUC 0.93(95% CI 0.92-0.94)로 가장 높은 예측 성능을 보였다. 이 모델은 뼈 구조 활용도가 가장 높고, 주목 영역의 타당성에서도 우수해, 예측력과 설명 가능성이 균형 있게 확보된 최적 모델로 평가됐다.
또한 의료 영상 기반 모델이 항상 더 우수한 것은 아니며, 예측 성능이 높다고 해서 설명 가능성까지 함께 향상되는 것은 아니라는 점도 확인됐다. 이는 의료 AI가 실제 임상에서 활용되기 위해서는 정확도와 함께 '왜 그렇게 판단했는지'에 대한 근거 검증이 필수적임을 보여준다.
제1저자인 김재원 연구원(서울대 의과학과)은 "파운데이션 모델을 의료 영상에 적용할 때는 높은 성능만으로는 충분하지 않고, 실제 의료 현장에서 신뢰받기 위한 다차원적 평가 체계가 필요하다"며 "이번 연구가 그 기준을 제시했다는 점에서 의미가 크다"고 설명했다.
교신저자인 박상민 교수(가정의학과)는 "예측 정확도뿐 아니라 AI의 판단 근거를 투명하게 설명할 수 있는지를 함께 평가함으로써, 파운데이션 모델을 어떻게 선택하고 활용해야 하는지에 대한 방향성을 제시했다는 점에서 큰 의의가 있다"고 강조했다.
한편, 이번 연구 결과는 골다공증 및 기타 대사성 골질환 분야의 국제 학술지 'Osteoporosis International' 최근호에 게재됐다.
장종호 기자 bellho@sportschosun.com
|








