오픈AI, GPT4 공개…"美 변호사 시험 상위 10%에 이미지도 분석"

각종 시험에서 기존 GPT 시리즈 능가
MS, 검색 서비스 빙에 GPT4 적용…챗GPT에는 유료 이용자부터

풍선 사진과 함께 "줄을 끊으면 어떻게 될까"를 입력하자, GPT4가 "풍선이 하늘로 날아간다"는 결과물을 출력했다. (오픈AI 블로그 갈무리) 2023.03.15 /뉴스1

(서울=뉴스1) 김승준 기자 = 챗GPT에 적용된 GPT3.5를 넘어서는 대규모 언어모델 GPT4가 공개됐다.

미국의 인공지능 연구소 및 기업 오픈AI는 14일(현지시간) 공식블로그를 통해 GPT4 및 연구 성과를 공개했다.

오픈AI는 언어모델의 규모를 나타내는 매개변수 양을 공개해 왔지만 이번엔 매개변수 수치를 공개하지 않았다. GPT1 1억1700만개, GPT2 15억여개, GPT3 1750억여개로 크게 확대돼 왔다. GPT4에서도 상당한 수준의 모델 규모 확충이 이뤄졌을 것으로 추정된다.

오픈AI는 각종 시험을 통해 향상된 성능을 입증했다. 예를 들어 GPT 3.5는 미국 통합 변호사 시험(Uniform Bar Exam)에서 인간 시험자 하위 10% 수준이었으나, GPT4는 상위 10% 수준에 해당하는 점수를 얻었다. 미국 생물올림피아드(2020년 준결승 기준) 시험에서도 GPT3.5는 하위 30%의 성정을 거뒀으나, GPT4%는 상위 1% 수준이었다.

영어 이외의 언어 생성 능력도 개선됐다, 언어모델의 성능을 평가하는 MMLU 벤치마크에서 GPT3.5 영어버전은 70.1점을 얻었다. GPT4는 대부분의 언어에서 이를 능가했다. 한국어의 경우에는 77.0점을 받았다.

또 다른 강점은 이미지 입력 기능이다. 오픈AI가 공개한 사례에서는 GPT4에 무거운 추에 풍선을 매단 사진과 함께, 줄을 자르면 어떻게 될지 질문을 입력했다. 그 결과 풍선이 하늘로 날아간다는 답이 나왔다.

이외에도 기존 챗GPT는 3000단어 수준의 텍스트를 분석할 수 있었지만, GPT4는 2만5000단어의 글을 분석할 수 있게 됐다.

오픈AI는 "GPT-4를 더 안전하고 정렬되도록 6개월을 보냈다"며 "GPT-4는 허용되지 않는 콘텐츠에 대한 요청에 응답할 가능성이 82% 적고, 내부 평가에서 GPT3.5보다 사실에 입각한 응답을 할 가능성이 40% 더 높게 나타났다"고 소개했다.

오픈AI에 대규모 투자를 단행한 마이크로소프트는 이날 GPT4 공개를 축하하며, 검색 서비스 빙에도 적용됐다고 설명했다.

GPT4는 듀오링고, 비 마이 아이즈(Be My Eyes), 모건스탠리, 칸 아카데미, 아이슬란드 정부 등에 사전 배포되어 활용되고 있다.

이외의 사용자는 API 대기자 등록을 통해 GPT4에 접근할 수 있다. 챗GPT에는 향후 적용될 예정이며, 유료 버전인 챗GPT플러스 이용자는 먼저 활용해볼 수 있을 전망이다.

한편, 오픈AI는 "GPT4는 사회적 편견, 적대적 프롬프트 대응, 환상 효과 등의 한계가 있다"고 명시했다. 환상 효과는 생성인공지능이 사실이 아닌 내용을 마치 사실인 것처럼 그럴듯하게 결과물을 만들어내 착각을 유발하는 현상이다.

seungjun241@news1.kr