AI가 알려준 의학 정보 믿을 수 있을까…GPT 시리즈 '매우 정확'

한림대동탄성심병원 교수진, 챗봇 5종 인공관절수술 답변 연구
"AI 챗봇, 환자 교육 돕고 유용…최종 결정 꼭 의료진과 상의"

2026.03.16 오후 03:03

최신 인공지능(AI) 모델이 제공하는 의학 정보 정확도가 높아, 환자 교육과 진료실 상담을 보조하는 도구로 활용될 수 있음을 보여주는 연구 결과가 나왔다. ⓒ 뉴스1 윤주희 디자이너

(서울=뉴스1) 강승지 기자 = 최신 인공지능(AI) 모델이 제공하는 의학 정보 정확도가 높아, 환자 교육과 진료실 상담을 보조하는 도구로 활용될 수 있음을 보여주는 연구 결과가 나왔다.

한림대 동탄성심병원은 송시영 정형외과 교수팀이 무릎 인공관절 수술 관련 정보를 제공하는 AI 챗봇 5종의 성능을 비교·분석한 연구 결과를 16일 발표했다.

연구팀은 구글 검색 경향과 정형외과 전문의 자문을 바탕으로 환자들이 무릎 인공관절 수술 전·후 자주 묻는 질문 43개를 선정했다.

질문은 △수술 개요 및 과정 △수술 적응증과 결과 △부작용·합병증 △통증·회복 과정 △수술 후 허용되는 활동 △수술 대안 및 변형 술기 등 6개 영역으로 구분했다.

질문에는 △무릎 인공관절 수술은 얼마나 걸리나요? △무릎 인공관절 수술 성공률은 얼마나 되나요? △무릎 인공관절 수술 후 주의해야 할 사항은 무엇인가요? 등을 포함했다.

각 질문은 GPT(지피티)-3.5와 GPT-4, GPT-4 Omni, Gemini(제미나이) Advanced, Gemini 1.5 등 5가지 LLM(거대언어모델) 기반 AI 챗봇에 동일하게 제시해 답변받았다.

이후 무릎 인공관절 수술을 전문으로 하는 정형외과 전문의 두 명이 정확도와 질문 적합성을 5점 리커트 척도로 평가했다.

평가자는 어떤 AI 챗봇이 작성했는지 모르는 상태에서(블라인드) 채점해 편향을 최소화했다.

그 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 전체 질문에 대해 평균 4.8점 이상의 높은 정확도를 보였고, 질문과의 관련성도 100%로 평가됐다.

반면 Gemini Advanced는 전체 평균 정확도 4.07점, 관련성 83.7%로 다른 챗봇보다 낮은 성적을 보였으며, 일부 질문에서는 답변 대신 '전문의와 상담하라'는 안내를 제공하는 했다.

연구팀은 "이런 경향이 잘못된 정보를 피하려는 안전장치의 영향일 수 있다"고 해석하면서도 "환자 교육 도구로 활용할 때는 정보의 양·구체성이 제한될 수 있다"고 설명했다.

특히 수술 적응증과 수술 결과, 인공관절 수술의 대안 및 변형 술기를 묻는 말에서 챗봇 간 차이가 두드러졌다.

GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 이 영역에서 모두 5점 만점에 가까운 높은 점수를 받았지만, Gemini Advanced는 통계적으로 유의하게 낮은 점수를 기록했다.

송시영 한림대 동탄성심병원 정형외과 교수(한림대 동탄성심병원 제공)

송 교수는 "이번 연구에서 최신 AI 챗봇들이 무릎 인공관절 수술과 관련된 의학 정보를 상당히 정확하게 제공할 수 있음을 확인했다"고 말했다.

이어 "AI 챗봇의 응답은 2024년 8월 시점으로 평가됐으며, AI 모델의 빠른 발전 속도를 고려할 때 이후 버전에서는 성능 차이가 생길 수 있다"고 설명했다.

한편, 이번 연구는 정형외과·스포츠의학 분야 국제 학술지인 'Orthopaedic Journal of Sports Medicine'(IF=2.5)(스포츠의학 정형외과 저널) 1월 호에 실렸다.

연구는 과학기술정보통신부의 재원으로 한국연구재단(우수신진연구)의 지원을 받아 이뤄졌다.

ksj@news1.kr