검색 본문 바로가기 회사정보 바로가기

[이슈백블] 데이터라벨링, 인형눈알 붙이기?…"AI 고도화 핵심 기반"

[우리동네 찾아온 한국판 뉴딜④]AI 학습용 데이터 모으는 '데이터 댐'
경단녀 재택 일자리부터 로스쿨·의대 졸업자까지 '진화중'

(서울=뉴스1) 김정현 기자 | 2021-04-03 09:00 송고 | 2021-09-01 16:42 최종수정
© News1 최수아 디자이너
© News1 최수아 디자이너

# 취업준비생 최지연씨(26·여)는 최근 '데이터 라벨링'으로 생활비를 벌고 있다. 크라우드 소싱 플랫폼을 통해 작업을 찾는 최씨는 'JLPT' 자격증을 보유하고 있어 일본어와 관련된 작업을 주로 진행한다. 최근엔 업체에서 제공한 '일본어로 작성된 트위터 문장'을 추출해 각각 애니메이션·IT·일상대화 등 기준에 따라 분류하는 작업을 진행하는 것은 물론 이미지 속의 특정 사물을 표시해 분류하는 작업이나, 음성 녹음 등 사운드 작업에도 참여하고 있다. 최씨는 이같은 작업으로 한 달에 적으면 60만원, 많으면 100만원대의 수익을 올리고 있다.
"미래학자들은 인공지능(AI)을 모든 사업에서 활용할 수 있다는 점에서 전기에 비유합니다. 그렇다면 데이터는 원유로 볼 수 있죠. 원천 데이터 그 자체로는 바로 활용할 수 없고 정제하는 작업을 거쳐야 산업에 쓸 수 있습니다."(박민우 크라우드웍스 대표)

AI스피커, AI상담챗봇, 스마트디바이스까지. AI가 어느새 우리의 일상으로 성큼 다가왔다. 앞으로 미래에 활용될 기술을 논할 때 AI를 빼놓고 말하기가 불가능할 정도다.

산업 및 사회 전반의 핵심 기술로 떠오르고 있는 AI 기술력을 위해서 가장 필요한 것은 '데이터'다. AI를 고도화하고 제대로 사용하기 위해서는 충분한 양의 '데이터'가 확보돼야 한다. AI는 데이터를 바탕으로 반복 학습을 하면서 발전하기 때문이다.

그러나 AI가 모든 데이터를 학습할 수 있는 것은 아니다. 사람이 흙묻고 손질되지 않은 식재료를 그대로 먹을 수 없는 것처럼, AI 역시 목적에 맞게 손질과 가공을 거친 데이터만 학습할 수 있다. AI 업계에서는 이를 '데이터 라벨링'이라고 한다.
우리나라 역시 세계와 경쟁할 수 있는 AI 기술력 확보를 위해 데이터 라벨링을 거친 '머신 리더블 데이터'(Machine Readable Data) 구축에 나섰다.

3일 정부에 따르면, 과학기술정보통신부는 문재인 정부가 추진하는 '디지털 뉴딜'의 대표 과제로 데이터 수집·가공·활용 기반을 강화해 인공지능·데이터 경제를 가속화하는 '데이터 댐' 사업을 진행 중이다.

데이터댐은 한국판 뉴딜의 10대 주요 사업 중 첫 번째 사업으로 정부는 오는 2025년까지 총 18조1000억원을 투입해 거대한 '데이터 집합소'를 분야별로 구축하겠다고 밝힌 바 있다.

장석영 과학기술정보통신부 제2차관이 29일 오전 서울 강남구 크라우드웍스에서 엄재연 크라우드웍스 팀장으로부터 '데이터라벨링' 과정 설명을 듣고 있다. (과학기술정보통신부 제공) 2021.1.29/뉴스1
장석영 과학기술정보통신부 제2차관이 29일 오전 서울 강남구 크라우드웍스에서 엄재연 크라우드웍스 팀장으로부터 '데이터라벨링' 과정 설명을 듣고 있다. (과학기술정보통신부 제공) 2021.1.29/뉴스1

◇정부, 데이터 댐으로 AI와 일자리 '두 마리 토끼' 노린다

특히 정부는 데이터 댐 7대 핵심사업 중 'AI 학습용 데이터 구축'에만 지난해 3315억을 투입했고, 올해는 추경까지 포함해 3705억원을 투입한다는 방침이다.

이같은 AI 학습용 데이터는 구축 과정에서 수집된 데이터를 AI가 학습할 수 있도록 가공하는 '데이터 라벨러' 일자리까지 창출하는 효과도 있다.

정부는 앞으로 AI학습용 데이터 구축 규모가 대폭 확대되고 분야별 AI 융합이 가속화되면 데이터 라벨링으로 창출되는 일자리로 신종 코로나바이러스 감염증(코로나19) 사태로 인한 일자리 위기 극복에 기여할 것으로 보고 있다.

한국노동연구원은 지난해 발표한 '데이터 경제 활성화가 고용에 미치는 영향' 보고서에서 "정부의 데이터경제 활성화 정책의 강화로 빅데이터 이용률이 지난 2018년 2.5%에서 정부가 발표한대로 오는 2023년 9.9%까지 높아진다고 상정할 경우, 총 7만9000~15만9000명 규모의 신규고용을 창출하는 것으로 나타났다"고 분석했다.

실제 지난해 한 해 동안 AI 학습용 데이터 구축사업에 참여한 사람은 총 4만165명이다. 8770명의 직접고용 일자리를 비롯해, 개방된 플랫폼에서 다양한 사람들이 참여하는 '크라우드 소싱' 방식으로 참여해 수익을 올린 사람도 3만1395명에 달했다.

특히 크라우드 소싱 방식은 누구나 원하는 시간과 장소에서 데이터 라벨링에 참여할 수 있다는 장점이 있어 경력단절여성, 취업준비 청년, 노인, 장애인 등 코로나19로 인해 타격을 입은 다양한 사회 취약계층에도 도움이 되고 있다.

정부 자료에 따르면 데이터 라벨링 업무에 참여한 사람들 중 경력단절여성, 취업준비생 등 취약계층으로 분류되는 사람들의 비율은 전체 3만9000여명의 61% 수준인 2만4000여명인 것으로 조사됐다. 크라우드소싱 플랫폼 '크라우드웍스'가 데이터 라벨러들을 상대로 조사한 '데이터 라벨러 현황 분석'에서도 국내 데이터 라벨러들 중 구직자나 전업주부, 취업 준비생의 비율은 44.4%에 달할 정도로 많았다.

크라우드소싱 플랫폼 '크라우드웍스'가 데이터 라벨러들을 상대로 조사한 '데이터 라벨러 현황 분석' 자료(크라우드웍스 제공) © 뉴스1
크라우드소싱 플랫폼 '크라우드웍스'가 데이터 라벨러들을 상대로 조사한 '데이터 라벨러 현황 분석' 자료(크라우드웍스 제공) © 뉴스1

◇"데이터 라벨링, 단순 작업 아냐…AI 발전 따라 데이터 가공 난이도 높아져"

일각에서는 이같은 데이터 라벨링에 '단순 반복 작업'이 많다는 이유로 '인형 눈깔(알) 붙이기' 같은 단기적 일자리 늘리기에 불과하다는 지적도 있다. 그러나 데이터 라벨링 업계 관계자들은 이에 대해 "데이터 라벨링에 대한 이해가 없는 것"이라고 잘라말한다.

한 데이터 라벨링 업체 관계자는 "데이터 라벨링에 반복 작업이 많은 건 사실이지만, '단순'이라는 말이 틀렸다"며 "과거와 달리 AI 기술이 발전하고 다양한 분야에서 활용되면서 데이터 가공 난이도 역시 증가하고 있기 때문에, 숙련된 데이터 라벨러에 대한 니즈도 증가하고 있다"고 설명했다.

데이터 라벨링 업무 중에는 사진 속에서 자동차 등 특정 사물이나 사람 등을 표시하는 쉬운 작업도 있다. 그러나 어학 데이터와 관련된 업무의 경우, 문법이나 번역이 정확한지를 판별하기 위해 언어능력 및 외국어능력이 필요한 난이도 높은 작업도 있다.

또 일부 데이터 라벨링은 전문 지식을 갖춘 사람들만이 참여할 수 있는 경우도 있었다. 일례로 법·의학 관련 번역 기능을 위한 데이터 라벨링에는 참여 자격을 로스쿨·의대 졸업자로 한정하는 경우도 있었다. 이같은 작업은 그만큼 '페이'도 셌다. 데이터 라벨링이 단순 작업이라고 표현하기 어려운 이유다.

데이터 수집·가공업체 관계자는 "숙련 데이터 라벨러 중에는 수준에 따라 월 400만~500만원의 수익을 올리는 사람도 있다"며 "업계에서는 전문 데이터 라벨러 수급이 더 필요한 상황인데, 데이터 라벨링을 단기 일자리라고 폄하하는 것은 국내 AI 발전에 해가된다고 생각한다"고 말했다.

실제 데이터 라벨링 일자리를 경험한 사람들은 "데이터 라벨링은 재택근무가 가능하고, 원하는 시간에 참여할 수 있는 탄력적인 일자리"라며 높은 만족감을 드러내고 있다.

결혼과 동시에 회사를 그만두고 지방으로 이주한 경력단절여성 김영균씨는 "코로나19로 인해 재취업에 어려움을 겪다가 크라우드소싱 기업이 제공하는 '데이터 라벨링' 교육에 참여했다"며 "자유로운 출퇴근으로 가정 경제도 회복하고 자녀양육도 가능해 만족도가 매우 높다"고 말했다.

데이터 라벨링과 관련된 기사를 보고 지난해부터 데이터 라벨링 작업에 참여하고 있다는 김주원씨(63)는 "짬날 때 집에서 일하면서 심심함도 달래고 돈도 벌고 있다"며 "코로나로 외부 활동이 제한돼 집에 있느라 심심했는데 일석이조의 일인 것 같다"고 말했다. 

최인혜씨(37·여)는 "주로 이미지 속에서 사물을 특정해 표시하는 이미지 라벨링 업무에 참여하는데 건당 단가는 몇백원 수준으로, 하루에 4~5시간을 집중해서 투자하면 150만원 이상은 벌 수 있었던 것 같다"며 "요즘 데이터 라벨링 일자리가 예전보다 많이 알려져 괜찮은 건은 금방 마감되는데, 디지털 뉴딜로 관련 프로젝트가 많이 늘어나면 좋겠다"고 아쉬움을 표했다.

*뉴스1-문화체육관광부 공동기획

전문 지식이 필요한 데이터 라벨링 작업. 데이터 라벨링 역시 능력과 지식에 따라 작업의 난이도와 수입이 달라져, '인형 눈알 붙이기' 폄하하기는 어려워 보였다. © 뉴스1
전문 지식이 필요한 데이터 라벨링 작업. 데이터 라벨링 역시 능력과 지식에 따라 작업의 난이도와 수입이 달라져, '인형 눈알 붙이기' 폄하하기는 어려워 보였다. © 뉴스1


 



Kris@news1.kr

이런 일&저런 일

    더보기