한글 표현에 고양이 구분까지…'어색함' 사라진 이미지 생성 AI

'생성·이해' 구글 비전 바나나 vs '한글 잘 쓰는' 오픈AI 덕테이프
정교해진 생성형 AI…생산성 높이지만 실제와 구분 더 어려워져

신은빈 기자

2026.04.29 오전 05:50

구글 딥마인드가 공개한 생성·이해 통합 범용 시각 인공지능(AI) '비전 바나나'(Vision Banana)를 통해 이미지를 RGB 출력값으로 분석한 결과. 웅크린 채 몸을 핥는 고양이는 하늘색으로, 앞다리를 뻗고 있는 고양이는 녹색으로 구분했다. (구글 딥마인드 기술 보고서 갈무리)

(서울=뉴스1) 신은빈 기자 = 오픈AI와 구글이 잇달아 새로운 이미지 생성 인공지능(AI) 기술을 선보이면서 '정교함'이 생성형 AI 시장의 무기로 떠오르고 있다.

해당 모델들은 그간 생성형 AI의 약점으로 꼽혔던 텍스트 구현이나 객체 구분 등 정밀한 작업을 수행하면서 정보기술(IT) 업계의 주목을 받고 있다. AI 특유의 어색함을 최소화한 덕분에 콘텐츠 제작 시 비용을 절감할 것으로 기대되지만, 한편으로는 현실과의 구분이 더욱 까다로워질 것이란 전망도 나온다.

29일 IT 업계에 따르면 구글 딥마인드는 이해·분석 능력을 모두 갖춘 범용 시각 AI 모델 '비전 바나나'(Vision Banana) 기술을 공개했다. 아직 상용화 단계는 아니며 프로젝트 모델로 구현됐다.

이 모델은 구글의 기존 이미지 생성 AI인 '나노 바나나 프로'를 기반으로 시각 인식 작업을 수행하도록 미세 조정됐다. 특히 이미지 출력값을 RGB 이미지(빛의 삼원색인 적색·녹색·청색, 화면에서 보이는 색을 표현하는 색상 모드)로 구분하는 기능이 탑재돼 객체 구분에서 뛰어난 성능을 보인다.

비전 바나나에 사진을 입력하면 프롬프트(명령어)에 따라 이미지 속 객체를 정해진 색깔로 구분해 표시해 준다. 개와 고양이처럼 다른 종류의 포유류는 물론, 앉아 있는 사람과 서 있는 사람, 웅크린 고양이와 앞다리를 뻗은 고양이처럼 같은 종류의 개별 객체도 구분해 낸다. 똑같이 생긴 여러 개의 농구공을 개별로 인식할 수도 있다.

구글 딥마인드 연구진은 기술 보고서를 통해 "비전 바나나는 단일 단어나 명사에서 구에 이르기까지 텍스트 프롬프트로 지정된 모든 (시각적) 요소를 분할할 수 있다"고 설명했다.

오픈AI의 최신 생성형 AI 모델 '챗GPT 이미지 2.0'으로 제작한 한글 포함 이미지(위)와 이전 모델로 제작한 한글 포함 이미지. 최신 모델로 구현한 이미지 속 한글이 훨씬 실제와 가깝고 정확한 수준으로 표현됐다. (엑스(X) 갈무리)

오픈AI 역시 최근 신규 이미지 생성 AI 모델 '챗GPT 이미지 2.0'을 공개했다. 이는 AI 익명 평가 플랫폼 '아레나 AI'에서 뛰어난 한글 생성 능력으로 입소문을 탄 모델 '덕테이프'(Duct Tape)의 정식 버전이다.

챗GPT 이미지 2.0은 이미지 내 한글을 생성할 때 맞춤법을 틀리거나 없는 글자를 만들어냈던 기존 AI 모델과 달리, 한글을 거의 완벽한 수준으로 구사하고 길거리 풍경이나 유명인 모습까지 흡사하게 구현했다.

해당 모델로 제작한 포스터에서는 한글 문구가 오타 없이 생성된 건 물론, 문장구조와 문법도 잘 지켜진 모습을 확인할 수 있었다. 서울 종로구의 한 포장마차에서 일론 머스크 테슬라 최고경영자(CEO)가 소주를 마시는 이미지도 한글 메뉴판과 소주병 상표를 실제와 거의 똑같이 구현했다.

한국어 외에 일본어·중국어·힌디어·벵골어 등 비(非) 라틴어 계열 언어도 정교하게 구현한다.

이는 챗GPT 이미지 2.0이 탑재한 사고 능력 덕분으로 풀이된다. 해당 모델은 챗GPT 사고·프로 모델에 기반해 정보를 검색하고, 출력물을 자체 검증한다.

오픈AI는 "사고 능력을 통해 이미지와 내용 사이의 복잡한 과정을 효율적으로 처리할 수 있다"며 "정확성과 최신성이 중요한 경우에 효과적"이라고 설명했다.

이처럼 정교함을 극대화한 생성형 AI는 향후 콘텐츠 업계의 생산성을 키우고 비용을 효과적으로 절감할 수 있을 것으로 기대된다.

특히 포스터, 교육·설명 자료, 광고나 만화 등 언어를 많이 포함한 콘텐츠를 생성할 경우 정확성을 높일 수 있어 유리하다. 객체를 세밀하게 구분하고 표면 굴곡이나 깊이를 추정해 사진처럼 보이는 이미지를 제작하기도 쉬워졌다.

구글 딥마인드 연구진은 "이미지 생성 모델이 생성 능력을 유지하면서 시각 이해 부문에서도 최고 수준의 성능을 발휘한다면 파운데이션 시각 모델(광범위한 시각 분야에 사용될 수 있는 모델)로 나아갈 수 있을 것"이라고 내다봤다.

한편으로는 생성형 AI 도입 당시 우려로 제기된 진위 구분의 모호함이 더욱 커질 수도 있다는 예측이 나온다.

1월부터 시행된 국내 'AI 기본법'은 이 같은 우려로 AI 생성물에 워터마크 등 표시를 부착하도록 규정한 '투명성 확보 의무' 조항(제31조)을 두고 있다. 고영향 AI·생성형 AI를 이용한 제품이나 서비스를 제공하는 사업자는 그 사실을 이용자에게 사전 고지해야 하고, 해당 결과물이 AI로 만들어졌다는 점도 인식할 수 있는 방식으로 표시해야 한다.

bean@news1.kr

한글 표현에 고양이 구분까지…'어색함' 사라진 이미지 생성 AI

많이 본 뉴스