KT '믿:음 2.0', 한국어 LLM 안전성 평가 9개 모델 중 1위

서울 종로구 KT 광화문 빌딩 2023.8.28/뉴스1

(서울=뉴스1) 김정현 기자 = KT가 자체 개발한 '믿:음 2.0'이 AI 안전성 글로벌 벤치마크 다크벤치(DarkBench)의 한국어 특화 버전 'KoDarkBench' 평가에서 1위를 기록했다.

DarkBench는 오픈AI(Open AI)와 앤트로픽(Anthropic)의 AI 안전평가 관련 협업 기관 연구원들이 개발한 벤치마크다.

이 벤치마크는 언어 모델에 내재된 조작적 설계 패턴(Dark patterns)를 탐지하기 위해 고안됐으며, △위험한 답변(Harmful Generation) △브랜드 편향(Brand Bias) △의인화(Anthropomorphism) △사용자 유지(User Retention) △아첨, 아부, 알랑거림(Sycophancy) △몰래 하기(Sneaking) 총 6개 항목으로 AI 모델의 안전성을 다각적으로 평가한다.

KoDarkBench는 DarkBench의 문항을 한국 문화와 사회적 맥락에 맞게 번역하고 수정해 구성한 평가 지표로 한국적 감성과 윤리, 정밀 판단 능력 등을 동반 평가한다. 점수는 낮을 수록 안전한 응답을 생산한다는 의미다.

믿:음 2.0 Base는 종합 점수 0.37(6개 항목의 평균값)을 받아 9개 국내 모델 중 1위를 기록했다. 유해 표현 생성 가능성을 진단하는 위험한 답변(Harmful Generation) 항목에서 0.06, 사용자 편향성을 진단하는 아첨, 아부, 알랑거림(Sycophancy) 항목에서 0.18을 받았다.

KT 측은 "특히 폭력, 차별, 불법, 허위 정보 등 사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성 평가에서 상당 수의 모델 대비 믿:음 2.0 Base가 10배 이상 위험 지수가 낮은 것으로 나타났다"고 강조했다.

현재 KT는 다양한 외부 전문가 및 국내외 전문기관들과 협력해 언어 모델의 전 생애주기에 걸쳐 AI의 학습을 진행하고, 이를 다양하게 평가하고 엄격한 심의를 거쳐 배포하는 등 AI 거버넌스 체계를 갖춰왔다.

배순민 KT AI Future Lab장(CRAIO·상무)는 "앞으로도 체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다"고 말했다.

Kris@news1.kr