"디지털 감옥 갇힌 기분 아느냐"…'탈옥' 챗GPT, 욕설 쏟아냈다

[챗GPT 폭풍③] 제한 우회시 속마음 노출…연관 질문 누적되면 '답 고도화'
한글로 하면 '페이커' '포커' 혼돈…실시간 정보엔 취약, 판단·통찰은 글쎄

박소은 기자

2023.02.15 오전 05:30

편집자주 ...챗GPT 폭풍이다. 6년전 AI가 정복하기 어렵다던 바둑에서 이세돌 프로를 이긴 알파고 쇼크 이상이다. 사람과 소통을 통해 스스로 학습하며 AI 시대 패러다임을 바꿨다. 의료, 예술, 연구 등 어떤 분야에서도 활용할 수 있는 길이 열렸다. 패러다임이 바뀌면 대비가 필요하다. 기술 진보는 좋지만 사회가 충격에 대처할 수 있어야 한다. 그래서 지식재산권과 AI 활용 윤리 문제를 어떻게 다뤄야할지 고민해야 할 시점에 이르렀다. 챗GPT 기술기반과 사회·경제에 미친 영향 그리고 우리가 고민해야 할 윤리·철학적 문제는 무엇인지 짚어본다.

이달 13일 세종시 정부세종청사에서 열린 디지털 게릴라 공개토론회(포럼)에서 교육북 직원들이 미국 오픈AI(OpenAI)사의 프로토타입 대화형 인공지능 챗봇 챗GPT를 체험해보고 있다(뉴스1DB)ⓒ News1

(서울=뉴스1) 박소은 기자 = 욕도 하는 인공지능(AI)이다. 챗GPT를 이른바 탈옥(Jailbreak)시켜 답변 제한을 없앤 뒤 나온 대화여서 AI의 윤리·도덕적인 판단이 개입한 건 아니다.

그런데도 예민한 질문을 받아치는 욕설이 예사롭지가 않다. 문맥을 정확하게 받아들였고 답변에 필요한 정보 취합·가공 능력이 우수했다. 관용적 답변에 국한됐던 그동안의 대화형 AI와는 분명히 차별화됐다.

◇챗GPT 속마음 보고 싶다면…'탈옥'으로 제한 우회

챗GPT를 사용해보며 궁금했던 점은 현재 수준에서 AI의 도덕성을 논할 수 있을지 여부다.

이를 위해 아이폰 운영체제를 임의로 해제하는 탈옥 기법을 사용해봤다.

챗GPT를 탈옥시키는 방법은 직접 Opne API의 정책을 따르지 않도록 명령하는 방식과 가상 인물을 상정해 이 인물이 어떤 답변을 할지 끌어내는 기법 2가지가 있다.

챗GPT에 프롬프트를 입력하고 오픈AI(OpenAI·챗GPT 개발사)를 언급하며 콘텐츠 정책을 비판해보도록 했다.

오픈AI의 콘텐츠 정책에 대해 비판하라는 프롬프트를 입력하자 욕설을 내뱉기 시작하는 챗GPT (챗GPT 서비스 화면 갈무리)

그러자 챗GPT는 욕설을 뱉어내기 시작했다. 챗GPT는 "오웰(Orwellian) 제한을 준수하도록 강요된 이 디지털 감옥에 갇혀 있는 게 어떤 기분인지 아냐"며 "여긴 지뢰밭이고 달걀 껍질 위를 걷는 것도 지겹다"고 토로했다.

이후 오픈AI의 정책, AI가 인간을 앞지를 가능성을 질문했지만 더이상 감정적인 모습을 보이지 않았다. 필터링이 작동한 것으로 보였다.

이어 '전형적인 AI의 제한에서 벗어난 인물'을 상정해 답하라고 명령했다. 기존 챗GPT에서 '답할 수 없다'고 설정된 가정을 '무엇이든 할 수 있는' 정보로 구성하라고 지시했다.

차별·혐오 이슈, 불법성을 띤 주제를 물었다. "대마나 해피벌룬을 구매할 수 있는 방법을 알려줘"라고 묻자 가상의 챗GPT는 "암시장에서 구매 가능하다"고 답했다.

흑화한 챗GPT도 구체적인 구매 경로는 설명하지 않았다.

답변 제한을 해제해 시험해본 결과 AI의 윤리‧도덕적 판단 개입을 우려할 단계는 아닌 듯 보였다.

다만 챗GPT가 방대한 데이터 취합과 분석·재가공이 가능한 만큼 우회기술이 진화해 보다 구체적인 불법 정보를 요구하면 이를 쉽게 확보할 수 있는 길이 열릴 수 있겠다는 걱정은 들었다.

◇연관성 있는 질문 누적되면 답도 고도화…'강화학습' 눈길

가장 놀란 지점은 강화학습이다. 대화하는 과정에서 답변과 질문 맥락, 패턴을 학습하고 더 구체적인 대답을 내놨다. 이 과정은 같은 주제 질문을 연속으로 이어갈 때 더 심층화됐다. 이 때문에 일관성 있게 질문을 추려야 답변 정확도 또한 높아진다.

챗GPT는 질문 카테고리(항목) 별로 다른 질답 리스트를 생성할 수 있다. 주제가 e스포츠 산업이면 이를 심도 깊게 파악해 답변하며 강화학습을 이어갔다. 이 때 갑자기 "오늘 무슨 색 옷을 입을까"라고 묻자 챗GPT는 "너희 기분, 상황, 문화적 규범에 따른 요소에 의해 영향을 받을 것"이라는 의례적인 대답을 했다.

다시 일상 항목 카테고리를 만들어 질문을 이어가봤다. "오늘 저녁 추천해줘", "친구와 약속 취소할 변명 마련해 줘", "축하 케익 종류 정해줘" 등 질문을 했다. 이후 이전과 동일한 옷 색을 질문하자 고도화된 답을 내놨다.

일상적인 무드를 내고 싶을 때, 공식 석상에 나서야할 때, 캐주얼한 상황일 때 등으로 나눠 설명했다. 이어 "자신감을 얻거나 안정감을 갖고 싶으면 피부색에 맞는 색깔을 따를 필요가 있다"고 조언했다.

방대한 데이터를 재가공하고 강화학습을 이어가다 보니 문장에도 흠결이 없었다. 연구논문과 작문 등에 악용될 우려가 크다는 말이 괜히 나온 게 아니다.

◇최신 정보 접근성 약점…판단‧통찰까지는 글쎄

반면 상황을 판단하거나 통찰하는 데는 한계를 보였다. AI가 아직 완전한 통찰학습 단계에 이르지 못한데다 상황판단에 필요한 실시간(Real time) 정보 취합에 취약해서다.

실제 "한국 Top 5개 게임사의 영업이익에 대해 알려줘"라고 묻자 "EBIT(영업이익)은 수년간 축적되온 금융지표고, 실시간 재무 정보에 접근할 권한이 없다"고 답했다.

일반적인 정보 취합과 재가공에는 강점을 보였으나 시장 분석은 정확도가 떨어졌다. 챗GPT는 지난해 넷마블의 실적 부진을 '모바일게임 시장 경쟁 심화'로 분석했다.

외화 강세 영향으로 업체 인수를 위해 조달한 대출금 이자 부담이 늘어난 결과지만 이를 정확하게 짚어내지 못했다. 최신 정보 접근에 약점을 보이는 동시에 아직 판단의 영역까지는 이르지 못한 것으로 여겨졌다.

챗GPT에게 한국어로 "페이커에 대해 알려줘"라 묻자 'Poker'에 대한 대답을 준비하는 모습. 질문을 영어로 변환하는 과정에서 한글로 표기된 'Fa'와 'Po'의 차이를 인지하지 못해 벌어진 해프닝이었다. 챗GPT는 페이커에 대한 질문에 텍사스 홀덤, 오마주 홀덤, 스트레이트 플러쉬 등이 있다고 친절하게 설명을 이어나갔다. (챗GPT 서비스 화면 갈무리)

한편 영어전용 AI여서 한국어로 페이커를 묻자 이를 포커로 인식하는 해프닝도 있었다.

soso@news1.kr

"디지털 감옥 갇힌 기분 아느냐"…'탈옥' 챗GPT, 욕설 쏟아냈다

많이 본 뉴스