"구글 AI오버뷰 인용문서 10.4% AI가 생성"…모델붕괴 경고등
AI콘텐츠탐지기업 "주요분야 2.9만개 쿼리 분석…재인용 빈번"
"AI 오버뷰, 인간콘텐츠 트래픽 감소시켜 악순환 야기" 경고
- 김민석 기자
(서울=뉴스1) 김민석 기자 = 구글의 인공지능(AI) 기반 검색 요약 서비스 'AI 오버뷰'가 생성한 콘텐츠의 인용 문서 10개 중 1개는 AI가 만든 것이라는 분석 결과가 나왔다.
AI 오버뷰는 사용자 검색 시 웹페이지 상단에 AI가 생성한 요약 정보를 표시하는 기능으로 지난해 5월 출시됐다
14일 IT 업계에 따르면 AI 콘텐츠 탐지 설루션 기업 Originality.ai(오리지날리티닷AI)는 최근 '구글 AI 오버뷰의 인용문서 중 10.4%는 AI 생성 콘텐츠로 분석됐다'고 발표했다.
연구는 건강·금융·법률·정치 등(YMYL·Your Money or Your Life) 중요 정보 영역 2만 9000개 검색 쿼리(질문)를 분석해 도출됐다.
오리지날리티닷AI는 MS MARCO 웹 검색 데이터셋(이용자 검색어)을 활용해 GPT-4.1-나노로 각 쿼리를 분류한 후 SerpAPI를 통해 검색 결과와 인용 소스를 분석했다. 이 과정에서 모든 인용과 유기적 URL은 'Originality.ai AI Detection Lite 1.0.1 모델'을 사용해 AI 생성 콘텐츠를 분류했다.
그 결과 △AI 생성 인용 문서 10.4% △ 인간 생성 74.4% △분류할 수 없는 범주(PDF 또는 텍스트가 거의 없는 페이지 등) 15.2% 등으로 집계됐다.
문제는 AI의 AI 콘텐츠 재인용이 장기적으로는 '모델 붕괴'(model collapse) 현상을 초래할 수 있다는 점이다.
오리지날리티닷AI도 "AI의 순환 참조가 반복되면 점점 재참조 빈도가 높아지다 현실과 괴리된 답변을 생산하는 모델 붕괴가 나타날 수 있다"고 지적했다.
과학 학술지 네이처(Nature)도 2024년 논문에서 "AI 모델이 오염된 데이터로 훈련받으면 결국엔 현실을 잘못 인식하게 된다"고 우려를 표했다. 연구진은 AI가 생성한 데이터로 학습하면 모델의 다양성이 줄고 특정 그룹 정보만 반복적으로 학습하는 '근친교배'와 유사한 현상이 발생한다고 설명했다.
구글 대변인은 "부분적 데이터와 신뢰할 수 없는 기술로 도출한 연구"라며 "AI 탐지기는 효과를 제대로 입증하지 못했고 오류도 쉽게 발생해 신뢰할 수 없다"고 반박했다.
전문가들은 AI 오버뷰가 인간이 작성한 고품질 콘텐츠의 트래픽을 감소시켜 AI가 생성한 콘텐츠가 계속 증가하는 악순환 구조를 만들 수 있다고 경고했다.
퓨 리서치센터의 7월 연구에 따르면 AI 오버뷰로 답을 도출한 이용자는 그렇지 않은 이용자보다 웹 결과를 클릭할 가능성이 거의 절반(15%→8%)으로 줄었다.
미국·유럽연합(EU) 언론사들도 구글의 AI 오버뷰 검색 엔진이 언론 콘텐츠를 부당하게 활용하면서 트래픽·독자 수 등에서 피해를 보고 있다고 호소하고 있다. 시밀러웹 등에 따르면 AI 오버뷰 출시 이후 미국 주요 뉴스 사이트 50곳 중 37곳의 트래픽이 전년대비 감소했다.
최근 EU 독립언론사연합은 구글을 상대로 EU 집행위원회에 반독점 고발장을 제출했다. 집행위는 AI 오버뷰가 법령에 위배되는지 평가하는 예비 심사를 진행하고 있다.
ideaed@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









