검색 본문 바로가기 회사정보 바로가기

정부, 데이터댐 열자 IT 업계 "쓸만하다" 호평

정부 AI 학습용 데이터 170종, 4억8000만건 개방
공공데이터 품질 논란 꼬리표 떼고 IT 업계 "도움될 것"

(서울=뉴스1) 이기범 기자 | 2021-06-18 16:21 송고
18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째) 등 참석자들이 출범 선포를 마치고 기념촬영 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1
18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째) 등 참석자들이 출범 선포를 마치고 기념촬영 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1

IT 업계가 정부가 개방한 인공지능(AI) 학습용 데이터에 대해 기대감을 나타냈다. 그동안 공공 데이터의 경우 품질 문제가 꼬리표처럼 따라붙었지만, 사전에 수요 조사 및 기업 검증을 거치는 등 민관 협력을 통해 쓸만한 데이터를 개방했다는 평가가 나오고 있다.
◇사투리도 알아듣는 AI…"정부 개방 AI 학습용 데이터 쓸만해"

네이버, SK텔레콤, KT 등 18일 서울 마곡 LG사이언스파크에서 열린 '인공지능(AI) 데이터 활용협의회' 출범식에 참석한 기업들은 과학기술정보통신부(과기정통부) 장관과의 비공개 간담회에서 이번 AI 학습용 데이터 개방에 대한 의견을 주고받았다. 이날 행사에서 기업들은 데이터 품질이 좋아졌다는 평가를 내놓았다.

이날 과기정통부는 AI 학습용 데이터 170종(4억8000만건)을 18일 60종을 시작으로 이달 말까지 순차 개방하겠다고 밝혔다. 이번 데이터 개방은 지난해부터 문재인 정부의 핵심 정책인 디지털 뉴딜의 '데이터 댐' 구축 프로젝트의 일환으로 추진돼 왔다. 헬스케어 데이터 등 개인정보와 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 30일 공개된다. 이에 앞서 정부는 AI 알고리즘을 보유한 20여곳의 기업 및 연구 기관에 먼저 데이터를 제공해 테스트를 진행했다.

KT는 방언 데이터를 통해 AI의 음성 인식률이 높아졌다고 밝혔다. 과기정통부는 강원도, 경상도, 전라도, 제주도, 충청도 등 각 지역별 농어촌 주민 등의 실제 사투리 음성을 녹음해 방언 데이터 구축했다. 기존 음성 기반 AI 서비스는 성인의 표준어 발화를 기준으로 구축돼 연령대나 지역에 따라 음성 인식률이 낮아진다는 문제를 지적받아왔다.
이날 간담회에 참석한 네이버 AI랩을 이끄는 하정우 연구소장은 "음성 같은 경우 다양한 지역 사투리, 다양한 연령대 모든 음성 데이터 만들기 쉽지 않은데 그런 부분에서 정부가 개방한 AI 학습용 데이터가 도움이 될 수 있다"고 말했다.

또 이번에 개방된 데이터들이 네이버의 초대규모 AI '하이퍼클로바'에 활용될 정도의 품질을 갖췄다고 밝혔다. 하 소장은 "하이퍼클로바 개발을 위해 5600억개 토큰의 한국어 대용량 데이터를 구축하는 등 엄청 많은 데이터를 모았지만, 여전히 부족한 부분이 있다. 자유 대화, 판례 같은 걸 저희 네이버가 만들 수 없다"며 "그런 데이터가 개방형으로 만들어지면 하이퍼클로바가 훨씬 더 똑똑해질 수 있을 거고, 실질적으로 도움이 많이 되기도 한다"고 설명했다.

과기정통부는 AI 학습용 데이터 170종(4억8000만건)을 18일 60종을 시작으로 이달 말까지 순차 개방하겠다고 밝혔다. / 뉴스1 2021.06.18. © News1 이기범 기자
과기정통부는 AI 학습용 데이터 170종(4억8000만건)을 18일 60종을 시작으로 이달 말까지 순차 개방하겠다고 밝혔다. / 뉴스1 2021.06.18. © News1 이기범 기자

특히 이번 정부 정책이 데이터가 부족한 스타트업, 중견 기업에 도움이 될 거라는 얘기가 나왔다.

현대자동차에서 AI 기술을 연구하는 사내독립기업(CIC) 에어스(AIRS) 컴퍼니의 AIR랩 김준석 실장은 "저희도 네이버나 KT 같은 곳보다는 음성, 텍스트 등 데이터가 많이 부족하다"며 "국가에서 데이터를 모아주고 서비스에 바로 활용할 수 있도록 해줘서 도움이 많이 될 것"이라고 말했다.

이날 행사에는 네이버를 비롯해 삼성전자, LG, KT, SK텔레콤, 현대자동차 등과 스트라드비젼, 비바엔에스, 딥노이드, 원투씨엠 등 스타트업이 참여했다. 정부 공공 기관을 비롯해 학계 인사들도 참석했다.

◇세부적 데이터, 라벨링 보완 필요하다는 의견도

세부적으로 데이터를 구축해줬으면 한다는 의견도 나왔다. 과기정통부 관계자는 "농림 분야를 예로 들면 병충해라고 하면 여러 종류의 병충해가 있는데 세부적으로 데이터를 구축해주면 좋겠고, 라벨링이 보완됐으면 한다는 의견이 있었다"고 전했다.

첨단운전자보조시스템(ADAS) 및 자율주행용 AI 기반 카메라 인식 소프트웨어를 개발하는 국내 스타트업 스트라드비젼 이선영 최고운영책임자(COO)는 "데이터 종류에 따라 (유용한 정도가) 다를 거 같은데 저희는 정부 개방 데이터에 연관 데이터가 많이 있어서 유용했다"고 말했다.

또 "정부에서 주도해서 데이터 모을 때 회의적이었고, 저희는 굉장히 데이터 조건이 까다롭다"라면서도 "다행히 정부가 수요 조사도 하고, 여기에 맞춰서 데이터 모으고, 후처리·전처리·가공도 다 된 상태로 쓸만한 데이터를 많이 모아주셔서 사전 검증했을 때는 유용한 데이터가 어느 정도 쌓여 있는 거로 판단하고 있어서 저희도 활용할 계획"이라고 덧붙였다.

임혜숙 과학기술정보통신부 장관이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 격려사를 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1
임혜숙 과학기술정보통신부 장관이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에서 격려사를 하고 있다. (과학기술정보통신부 제공) 2021.6.18/뉴스1

이날 임혜숙 과기정통부 장관은 "(데이터 개방은) 인공지능 활용 격차를 좁히는 계기가 될 것"이라며 "현재 대기업 중심으로 국내 기업체 4.6%만 인공지능 기술과 솔루션을 도입, 활용 분야가 제한적인 상황인데 AI 기술 활용과 이용 저변 확대에 기여할 것"이라고 말했다.



Ktiger@news1.kr

이런 일&저런 일

    더보기