AI 활용 의사, 진료 수행 점수 절반 수준…동료 평가 낮아
[김규빈의 저널톡] 존스홉킨대, 의료진 276명 대상 실험
전문성 평가에서도 차이…AI 사용군 3.71점, 미사용군 5.99점
- 김규빈 기자
(서울=뉴스1) 김규빈 기자 = 의료현장에서 인공지능(AI)은 진단의 정확도를 높이지만, 동료 의사들의 신뢰를 얻지 못할 수 있다는 연구 결과가 나왔다. AI를 사용한 의사의 진료 수행 능력 점수는 3.79점으로, AI를 쓰지 않은 의사 5.93점의 절반 수준에 그치는 것으로 나타났다.
9일 미국 존스홉킨스대 연구팀이 동료 의사의 AI 사용이 의사의 신뢰도와 전문성 평가에 어떤 영향을 미치는지를 조사한 결과 이같이 나타났다고 밝혔다. 연구에는 미국 존스홉킨스병원 의료진 276명이 참여했다. 이 중 의사 178명, 전공의·펠로우 28명, 진료보조인력(PA·NP) 60명, 기타 임상 인력 10명이 포함됐다.
참가자들은 세 가지 조건 중 하나에 무작위로 배정됐다. △AI 미사용군 △AI 주의사결정군(AI를 주요 판단 근거로 활용) △AI 검증군(의사가 결정 후 AI로 재확인)이다.
이후 연구진은 당뇨병 치료 상황을 가정한 임상 시나리오를 제시하고, 각 조건에서 환자 평가와 처방 과정을 다르게 설정한 뒤 다른 의사 집단이 이를 평가하도록 했다. AI를 사용한 의사의 진료 과정을 본 동료 의료진이 임상 능력과 신뢰도를 직접 평가하도록 한 것이다.
AI를 사용한 의사에 대한 임상 평가에서는 뚜렷한 차이가 나타났다. AI 주의사결정군의 진료 역량 점수는 3.79점, AI 검증군은 4.99점, AI 미사용군은 5.93점이었다. AI를 검증 단계에서만 활용했을 때 점수가 다소 높았지만, 여전히 미사용군보다 낮았다.
AI를 사용한 의사에 대한 평가는 진료 과정 전반에서도 비슷한 양상이 나타났다. '전체 진료 경험'은 의사의 진료 전반에 대한 동료의 평가를 뜻한다. 이 항목에서 점수는 AI 주의사결정군 3.08점, AI 검증군 3.72점, AI 미사용군 4.48점으로 차이가 뚜렷했다. AI를 주요 판단 근거로 사용한 의사는 의료 서비스의 질이 낮게 평가되는 경향을 보였으며, 이는 임상 역량 평가가 영향을 미친 결과로 해석됐다.
진료 전반의 평가에 이어, 의사의 전문성 인식에서도 비슷한 결과가 나타났다. 전반적 전문성은 의사가 임상 지식과 판단력을 종합해 진료를 수행하는 능력을 평가한 지표다. 점수는 AI 주의사결정군 3.71점, AI 검증군 4.94점, AI 미사용군 5.99점으로, AI를 검증용으로만 사용했을 때 부정적 인식이 다소 완화됐지만 완전히 해소되지는 않았다. AI 사용이 의료진의 전문성 평가에도 영향을 미쳤다는 분석이다.
다만 AI의 효용성에 대한 평가는 긍정적이었다. '진단 정확도 향상에 도움이 된다'는 항목의 평균 점수는 7점 만점에 4.30점, 병원 맞춤형 AI 시스템 평가는 4.96점이었다. 그러나 AI의 유용성을 인정한 의료인들조차, 실제로 AI를 사용하는 의사를 신뢰하지 않는 경향이 나타났다.
연구진은 "AI를 검증 보조로 사용하면 부정적 평가는 줄어들지만 완전히 해소되지는 않는다"며 "AI를 의사결정 과정에 통합하더라도, 사회적 인식과 신뢰의 간극이 여전히 존재한다"고 강조했다.
이어 "AI가 의료 의사결정 체계를 재편하고 있는 만큼, 의료진은 안전성과 효용성이 검증된 시스템을 신중하게 수용할 필요가 있다"며 "기술적 정밀성 못지않게 인간의 판단과 책임을 보완하는 방향으로 발전해야 한다"고 덧붙였다.
한편 이번 연구 결과는 국제학술지 ‘네이처 디지털 메디신(npj Digital Medicine)’ 8월 호에 게재됐다.
rnkim@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









