한국판 GPT 성능평가 위한 데이터세트 구축 기관 모집

8월7일까지 공모…컨소에 빅데이터 기반 AI개발 기업·기관 필수
과기부, 데이터세트 구축에 24억원 투입…"향후 개방할 것"

ⓒ News1 윤주희 디자이너

(서울=뉴스1) 윤주영 기자 = 정부가 추진하는 '독자 인공지능 기초 모형(독자 AI 파운데이션 모델)' 사업의 결과 성능 평가를 위해, '성능 평가 데이터 세트'를 구축할 기관을 공모한다.

과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 이런 내용의 공모를 17일부터 8월 7일까지 진행한다.

현재 대부분의 생성형 AI 성능평가는 영어권의 평가지표가 활용된다. 국내의 서비스 이용환경 등을 충분히 반영하지 못했다는 지적이다.

이에 정부는 한국의 문화·사회적 가치 등을 반영하고, 국내외 다양한 AI 모델 성능을 객관적으로 진단하기 위해 고품질 성능 평가 데이터 세트를 구축한다. 총 3개 과제에 각각 8억 원을 투입한다.

앞서 AI 모델 개발·평가 분야 전문가의 의견을 토대로 데이터 세트 구축 분야도 발굴했다. 올해에는 우선 △LLM의 수학 풀이 능력 평가 데이터(수학 분야) △한국형 지식을 평가하기 위한 주제별 질의-정답 및 추론 데이터(지식 분야) △장문 문맥에서의 다양한 과업 평가 데이터(장문이해 분야) 등 3개 분야 데이터 세트를 구축한다.

향후에는 멀티모달, 에이전트(비서) 등 생성형 AI 모델의 다양한 영역을 평가하는 데이터 세트도 구축할 예정이다.

참여 컨소시엄은 초거대 AI·자연어처리·멀티모달 AI 등 대규모 데이터 세트 기반 AI 개발 역량을 갖춘 기업·기관을 1곳 이상 포함해야 한다.

김경만 과기정통부 인공지능기반정책관은 "데이터 세트는 독자 AI 파운데이션 모델 프로젝트 정예 팀뿐만 아니라 향후 국내 AI 개발기관이 활용할 수 있도록 공개할 예정"이라고 말했다.

legomaster@news1.kr