검색 본문 바로가기 회사정보 바로가기

[단독]정부 개방 AI학습용 데이터, 네이버 '하이퍼클로바'서 활용된다

하정우 연구소장 "하이퍼클로버서 검증…꽤 도움될 것 같다"

(서울=뉴스1) 이기범 기자 | 2021-06-18 14:17 송고 | 2021-06-18 14:37 최종수정
18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째) 등 참석자들이 출범 선포를 마치고 기념촬영 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1
18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째) 등 참석자들이 출범 선포를 마치고 기념촬영 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1

정부 주도로 구축한 인공지능(AI) 학습용 데이터가 네이버의 초대규모 AI '하이퍼클로바'에도 활용된다.
네이버 AI랩을 이끄는 하정우 연구소장은 18일 서울 마곡 LG사이언스파크에서 열린 '인공지능(AI) 데이터 활용협의회' 출범식에서 뉴스1과 만나 정부가 개방한 AI 학습용 데이터가 "하이퍼클로바에도 꽤 도움이 될 거 같다"고 밝혔다.

하정우 소장은 "하이퍼클로바 개발을 위해 5600억개 토큰의 한국어 대용량 데이터를 구축하는 등 엄청 많은 데이터를 모았지만, 여전히 부족한 부분이 있다. 자유 대화, 판례 같은 걸 저희 네이버가 만들 수 없다"며 "그런 데이터가 개방형으로 만들어지면 하이퍼클로바가 훨씬 더 똑똑해질 수 있을 거고, 실질적으로 도움이 많이 되기도 한다"고 말했다.

하이퍼클로바는 지난달 25일 네이버가 공개한 초대규모 AI다. 초대규모 AI는 초대규모 서버와 데이터, 인력이 필요한 고성능 AI로, 국내에서는 네이버가 처음으로 자체 개발했다. 네이버는 현존하는 최고 AI로 평가되는 'GPT-3'보다 한국어 데이터를 6500배 이상 학습한 하이퍼클로바로 AI 주권을 확보, 중소사업자(SME)와 스타트업 등을 지원할 계획이다.

이날 과기정통부는 AI 학습용 데이터 170종(4억8000만건)을 18일 60종을 시작으로 이달 말까지 순차 개방하겠다고 밝혔다. 이번 데이터 개방은 지난해부터 문재인 정부의 핵심 정책인 디지털 뉴딜의 '데이터 댐' 구축 프로젝트의 일환으로 추진돼 왔다. 헬스케어 데이터 등 개인정보와 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 30일 공개된다.
하정우 소장은 "음성 같은 경우 다양한 지역 사투리, 다양한 연령대 모든 음성 데이터 만들기 쉽지 않은데 그런 부분에서 정부가 개방한 AI 학습용 데이터가 도움이 될 수 있다"고 밝혔다.

정부 주도로 개방된 공공 데이터에는 품질 논란이 꼬리표처럼 따라붙는다. 이에 대해 하정우 소장은 "(공공 데이터를) 2018년부터 봐왔는데 여전히 개선돼야 할 부분도 있지만, 갈수록 많이 좋아지고 있다"며 "전반적인 만족도가 좋았고, 스타트업, 중견 기업에는 확실히 도움이 될 것"이라고 강조했다.

이어 "클로바에도 검증을 해봤는데 이 정도면 꽤 도움이 될 거 같다. 하이퍼클로바에도 집어넣고 돌려보고 품질 체크도 해보고, 서비스에도 체크를 해봤는데 이 정도면 괜찮은 거 같다는 결론이 나왔다"고 밝혔다.



Ktiger@news1.kr

이런 일&저런 일

    더보기