'개인정보 유출 논란' 이루다 개발사, '고지·안전조치 의무 위반' 쟁점

'연애의 과학' 로그인 시 '개인정보 취급방침' 자동·포괄 동의
이루다·오픈소스 통해 공개된 정보 '개인정보' 해당 여부 관건

(서울=뉴스1) 손인해 기자 | 2021-01-15 07:20 송고

인공지능(AI) 챗봇 이루다. © 뉴스1

인공지능(AI) 챗봇 '이루다' 개발사 스캐터랩을 둘러싼 개인정보 이슈가 연일 터지면서 위법성 논란이 일고 있다.

스캐터랩이 '연애의 과학' 이용자들의 카카오톡 대화 내용을 제대로 된 고지 없이 수집·활용했다는 논란에 이어 이루다를 통해 공개된 이 개인정보가 제대로 익명화(비식별화)되지 않았다 게 골자다.

여기에 스캐터랩이 실명을 포함한 민감 정보가 그대로 노출된 카톡 대화 내용 1700건을 오픈소스 플랫폼에 15개월 동안 공유했다는 사실이 드러나면서 개인정보 유출 의혹이 더욱 짙어지고 있다.

◇ 로그인 시 '개인정보 취급방침' 자동 동의

첫 번째 쟁점은 개인정보 수집·이용 고지 의무 위반 여부다.

스캐터랩은 연애의 과학 이용자들이 제공한 카카오톡 대화 내용 100억건을 토대로 이루다를 개발했는데, 연애의 과학에 로그인하기 위해서 무조건 개인정보 취급방침에 동의하도록 한 게 개인정보 수집·이용 목적을 알리고 동의 필수·선택 여부를 구분해야 하는 개인정보보호법 제15조2항 및 22조를 위반했다는 것이다.

또 개인정보 수집 목적이 '신규 서비스 개발에 활용될 수 있다'고 고지한 것에 부합했는가도 따져볼 부분이다.

참여연대는 "적법한 동의에 해당하려면 통상의 이용자가 고지사항의 구체적 내용을 알아볼 수 있을 정도로 명확히 게재해야 한다"며 "정보 주체에게 충분히 설명하지 않고 충분히 인지되지 않은 동의는 제대로 된 동의라고 보기 어렵다"고 비판했다.

카카오톡 대화 상대방에 대한 동의 절차가 없었다는 사실도 정보 주체의 동의를 받도록 하는 개인정보 보호법 제15조1항 위반 소지가 있다.

'연애의 과학' 앱 첫 페이지. 하단에 '로그인함으로써 이용약관 및 개인정보취급방침에 동의합니다'라고 적시돼있다. © 뉴스

스캐터랩은 이에 대해 "연애의 과학 초기 화면에 나타나는 이용자가 이용약관이나 개인정보 취급방침을 터치하면 전문을 확인할 수 있다"며 "개인정보 수집·이용에 동의를 받는 방법은 실제 국내외 서비스들이 채택하고 있는 동일한 방법으로 내부적으로 법적 문제가 없을 것이라고 판단했다"고 밝혔다.

제3자 정보동의 여부에 대해서도 "대화 당사자 중 한 명이 개인정보 수집·이용에 동의해 자발적으로 대화 내용을 업로드한 것"이라며 문제가 없다는 입장이다.

한 개인정보 전문 변호사는 "'고지'라는 건 정보 주체가 해당 내용을 인식한 상태에서 명시적 동의를 해야 성립할 수 있는데 로그인함으로써 동의했다고 간주할 수 있느냐는 따져봐야 할 것"이라며 "수집 목적이 너무 포괄적이라는 측면도 문제"라고 말했다.

반면 또 다른 변호사는 "'신규 서비스 개발'이란 건 아주 많은 개인정보 처리 방침에서 써온 표현"이라며 "기존 서비스와 신규 서비스가 관련성이 얼마나 있는지는 당연히 논란이 되고 해석상 여지가 있는 부분이지만 '연애의 과학'과 '이루다' 두 서비스가 예상을 많이 벗어난 건 아니다"고 말했다.

이 변호사는 필수·선택 여부를 구분 없이 포괄적 동의를 받은 데 대해서도 "연애의 과학이 카카오톡 데이터를 분석해서 애정도 수치를 분석해주는 서비스기 때문에 카카오톡 대화를 (필수적으로) 볼 필요가 있다"고 했다.

AI 챗봇 이루다. 이루다가 특정 은행의 예금주로 누군가의 실명으로 보이는 이름을 말하면서 제대로 된 비식별화 과정을 거치지 않았다는 의혹이 제기되고 있다. © 뉴스1

◇ 카카오톡 대화내용은 '개인정보'일까

두번째는 개인정보 안전조치 의무 및 민감정보 처리 제한 의무를 위반했는지다.

위법성이 성립하면 먼저 스캐터랩이 이루다와 오픈소스 플랫폼을 통해 공개한 정보가 현행법상 '개인정보'에 해당하는지를 따져야 한다.

현행법상 개인정보는 '성명·개인정보 등을 통해 개인을 알아볼 수 있는 정보 또는 해당정보만으로 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합해 알아볼 수 있는 정보'라고 규정하고 있다.

개인정보 유출 논란은 이루다가 갑자기 특정 이름이나 주소, 논문 제목, 대학교수 이름을 말하거나 특정 장소에서 찍은 사진을 전송하는 사례가 발견되면서 촉발됐다.

스캐터랩은 일부 비식별화가 제대로 안 된 부분에 대해서 사과하면서도 '대화 단위'가 아니라 개별적이고 독립적인 1억건의 이루다의 답변 내용을 조합해 개인을 특정할 수 없다는 입장이다.

하지만 스캐터랩이 비식별화 과정을 제대로 거치지 않은 100건의 대화 단위(개별 문장 환산시 1700여건)를 오픈소스 플랫폼 '깃허브'에 공개했다는 사실이 드러나면서 개인정보 유출 의혹은 한층 커졌다.

역시 연애의 과학 이용자들의 카카오톡 대화내용으로 구성된 이 대화에선 실명이 20여번 이상 필터링 되지 않고 개인 기저 질환을 유추할 수 있는 대화 내용이나 생활 반경, 직장 관련 정보가 등장한다는 의혹이 있다. 해당 오픈소스 데이터셋은 논란이 된 지난 13일 삭제됐으나 이미 이를 포크(복사)한 데이터에 대한 우려가 있다.

서초동의 한 변호사는 "개인정보가 익명화 되는 경우는 매우 드물고 사실상 불가능하기 때문에 이번 개인정보보호법 개정안에서 '가명처리'라는 개념이 나온 것"이라며 "이름이나 숫자를 지웠다 하더라도 대화 내용 자체를 데이터로 쓴 건 분명하기 때문에 개인을 식별할 수 있는 여지가 있다"고 말했다.

반면 지적재산권 소송 전문 변호사는 "스캐터랩도 기본적인 비식별화 과정은 거쳤을 텐데 문제는 필터링을 어디까지 해야 하는가의 문제"라며 "데이터가 수십만 개 수준이 아니라 억 단위일 텐데 이걸 전부 다 가려내서 문제없는 데이터를 만들라고 하면 적어도 '딥러닝' 방식의 AI 개발은 국내에서 하지 말라는 얘기"라고 했다.

◇ 정부 조사·법정 소송 결과로 판가름 전망

개인정보보호위원회 명패 (개인정보보호위원회 제공) 2021.1.12/뉴스1

이번 논란은 향후 정부 조사와 함께 법정 분쟁으로 판가름 날 것으로 보인다.

개인정보보호 정책을 총괄하는 개인정보보호위원회와 한국인터넷진흥원(KISA)은 지난 13일 서울시 성동구에 위치한 스캐터랩 본사를 현장방문해 향후 자료요청 등에 대한 면담을 진행했다.

이용자들은 회사 측을 상대로 집단소송을 준비하고 있는데 민사소송의 경우 원고가 위법성에 대한 입증 책임을 해야 하기 때문에 쉽지 않을 거란 전망과 함께 검찰 수사가 필요하다는 얘기도 나온다.

그동안 개인정보 취급방침에 무심코 동의한 이용자들과 이를 그대로 활용한 업계의 관행이 이번 사태를 계기로 바뀌어야 할 것이란 목소리도 높다.

방송통신위원회는 전날 AI 서비스가 활용되는 과정에서 '사람중심의 AI서비스'가 제공될 수 있도록 'AI 윤리규범'을 구체화하는 방안을 추진할 계획이라고 밝혔다.

son@news1.kr