국립국어원, 인공지능 언어자원 12종 공개

외국어 병렬·수어·역사 자료 등 다채로운 언어자원

모두의 말뭉치 첫화면

(서울=뉴스1) 박정환 문화전문기자 = 국립국어원이 한국어-외국어 병렬 말뭉치와 한국수어, 국어 역사 자료 등 인공지능 언어자원 12종을 29일 새롭게 공개했다. 이번 공개로 지금까지 총 134종의 말뭉치가 제공된다.

국립국어원은 한국어 특화 인공지능 개발과 연구에 필요한 고품질 언어자원을 구축해 산업계와 학계에서 활용할 수 있도록 지원해왔다. 이번 신규 자원은 한국어-외국어 병렬 말뭉치 8종, 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종으로 구성됐다.

한국어-외국어 병렬 말뭉치는 신문 말뭉치와 일상 대화 말뭉치를 기반으로 베트남어, 인도네시아어, 태국어, 힌디어, 크메르어, 타갈로그어, 러시아어, 우즈베크어 등 8개 언어로 번역해 구축했다. 이는 인공지능 기반 번역 모델과 다국어 처리 연구에 필수적이다.

한국수어 말뭉치는 수어 영상 자료를 원시 형태로 제공하는 원시 말뭉치, 한국어 번역과 주석을 추가한 주석 말뭉치, 한국어와 병렬로 구성된 병렬 말뭉치다. 수어통역 기술 개발과 농인 소통 지원에 기여할 것으로 기대된다.

국어 역사 자료 말뭉치는 17~19세기 언간(한글편지) 자료와 20세기 초 신소설 문헌을 포함했다. 한국어의 역사적 변천과 언어문화 연구에 활용할 수 있는 귀중한 자료다.

134종의 말뭉치는 연구자, 개발자 등 누구나 이용할 수 있다. '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하고 승인받으면 내려받을 수 있다.

국립국어원 관계자는 "한국어와 한국문화를 잘 이해하는 독자 인공지능 개발을 위해 2030년까지 총 340종의 말뭉치를 공개할 계획"이라며 "이번 자원은 한국어 기반 인공지능 연구와 언어문화 전승에 중요한 밑거름이 될 것"이라고 말했다.

art@news1.kr