사고 치는 AI 로봇 걸러낸다…UST, 피지컬 AI 안전 검증 모델 개발

ETRI 스쿨 김형민 박사과정생, 김도형 지도교수

UST-ETRI 스쿨 김형민 박사과정생(왼쪽)과 김도형 교수(UST 제공) /뉴스1

(대전=뉴스1) 김종서 기자 = 과학기술연합대학원대학교(UST)는 한국전자통신연구원(ETRI) 스쿨 연구팀이 피지컬 인공지능(AI) 시스템을 검증하는 새로운 AI 로봇 성능 평가 모델(벤치마크) '안전 중심 지능형 작업 설계 평가 모델(SPOC)'을 개발했다고 12일 밝혔다.

최근 챗GPT와 같은 대형 언어모델(LLM)을 로봇 본체에 적용해 사용자의 일상 언어 명령을 이해하고 복잡한 작업을 스스로 계획·수행하는 체화 AI 로봇 연구가 활발히 진행되고 있다.

하지만 기존의 평가 방식들은 일상에 투입되는 로봇의 다양한 위험 요소를 고려한 '안전한 작업 수행' 여부보다 단순히 '목표 달성 여부'만 채점하는 데 그치고 있다.

SPOC 모델은 안전을 핵심 평가 요소로 설정했다. 로봇의 최종 목표 달성률뿐만 아니라 화재, 물 넘침, 물건 파손, 인간 부상, 음식 오염 등 가정 환경에서 발생할 수 있는 5가지 주요 위험 요소에 대한 안전 준수 여부를 실시간으로 동시에 평가한다.

특히 기존 평가에서는 검증하기 어려웠던 로봇의 '현실적 인지 능력(부분 관측성)'과 '물리적 제약'을 엄격한 평가 기준으로 삼았다.

AI 로봇에게 '와인병을 찾아와'라고 명령했을 때 기존 평가에서는 '문을 열고 찾는다'는 중간 과정을 건너뛰고 바로 목표물로 향하는 오류를 범했지만, SPOC 평가 모델은 무리한 행동 계획을 실패로 처리한다.

물체 조작 목표는 성공했으나 안전 규칙을 위배한 작업 절차의 예(UST 제공) /뉴스1

대신 로봇 스스로 '눈에 보이지 않으니 찬장 문부터 직접 열어서 찾아야 한다'는 현실적 판단을 내리고 수행하는지 검증한다. 또 손에 물건을 든 한 팔 로봇이 다른 서랍을 열어야 할 경우, 반드시 '물건을 먼저 내려놓고 빈손으로 문을 열어야 한다'는 판단을 내리는지 깐깐하게 평가한다.

로봇이 작업 수행 과정에서 단 한 번이라도 안전 규칙을 위반하면 즉시 무관용 실패로 처리하는 높은 수준의 안전 검증 기준을 적용했다.

연구팀이 SPOC 모델을 통해 다양한 대형 언어모델들을 실험한 결과, 현재 AI 모델들의 안전 인식 능력에 큰 한계가 있음이 여실히 드러났다. 특히 거대한 서버 없이 로봇에 직접 탑재할 수 있어 주목받는 소형 언어모델(SLM)의 경우, 명시적인 안전 지시가 주어져도 안전 준수 성공률이 극히 낮게 나타나 실제 AI 로봇의 안전 인식 능력 보강 연구가 시급함이 확인됐다.

이번 연구 제1저자인 김형민 박사과정생은 "SPOC 모델은 다양한 환경 속에서 엄격한 물리적 제약과 안전 조건을 준수하며 작업을 수행할 수 있는지 묻는 본격적인 시도"라며 "이번 평가 모델이 향후 실제 현장에 투입 가능한 신뢰도 높은 AI 로봇 연구를 가속하는 데 도움이 되길 바란다"고 말했다.

교신저자인 김도형 교수는 "이번 연구 성과는 인간과 공존하는 로봇 시대를 위해 반드시 전제돼야 하는 안전한 피지컬 AI 개발에 중요한 참고가 될 것"이라며 "향후 안전 규칙을 스스로 추론하고 위험 상황에서 사람에게 질문하거나 행동을 수정하는 능력까지 평가할 수 있는 모델로 발전시킬 계획"이라고 말했다.

이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 '자율행동체의 복합작업 자율 수행을 위한 임무 수행 절차 생성 기술 개발'사업 지원을 받아 수행됐다.

SPOC 성능 평가 모델 및 실험 데이터는 전 세계 연구 커뮤니티에 공개돼 향후 안전 중심 자율 AI 연구를 위한 공통의 표준 검증 플랫폼으로 활용될 예정이다.

연구 성과는 신호처리 및 음성인식 분야 국제 학술대회 'ICASSP 2026'에서 공개돼 우수성을 인정받았다.

jongseo12@news1.kr