생성이든 예측이든 AI 경쟁력은 '고품질 빅데이터'[혁신의 창]

(서울=뉴스1) 전종범 생명공학연구원 선임연구원 = 인공지능 시대(AI era)에 자주 제기되는 질문 중 하나는 ‘과연 인공지능은 정확한 답을 줄 수 있는가?’이다.

GPT로 대표되는 생성형 AI(Generative AI)의 발전은 기존 예측을 넘어 창의적인 추론까지 가능하게 했지만, 동시에 존재하지 않는 정보나 사실과 다른 패턴의 내용을 만들어내는 할루시네이션(hallucination)이라는 문제를 낳고 있다.

즉, 모델들은 정보를 제공하기보다는 그럴듯하게 정보를 생성하는 데 집중하고 있다는 점에서 정확한 예측이 필요한 생물학 분야에서의 생성형 AI의 한계는 주목해야 한다.

이러한 한계를 극복하기 위해, 최근에는 고품질 데이터로 선행학습(Pre-training)한 대규모 파운데이션 모델을, 생성 또는 예측 과제에 맞게 파인튜닝(Fine-tuning) 하여 활용하는 생성형-예측형 AI 통합 전략이 바이오 인공지능 모델 개발의 핵심 접근법으로 떠오르고 있다.

특히 NVIDIA, 구글, 아마존, 메타와 같은 빅테크 기업들은 이러한 양방향 바이오 파운데이션 모델 개발에 적극 투자하고 있다.

예를 들어, Arc Institute의 Evo2와 DeepMind의 AlphaGenome은 유전체 기능의 예측 및 생성이 가능한 모델이고, EvolutionaryScale의 ESM3는 단백질의 구조 예측과 서열 생성을 모두 수행할 수 있는 바이오 파운데이션 모델이다. 이러한 모델들은 질병 예측과 신약 개발 등 핵심 분야에서 전략적 모듈로 활용되고 있다.

하지만 이러한 전략이 실제로 성과를 내기 위해서는, 모델이 학습하는 데이터 자체의 품질이 무엇보다 중요하다.

AI 분야의 권위자인 앤드류 응(Andrew Ng) 교수는 “우수한 데이터 관리와 가공은 인공지능 구축 과정에서 약 80%의 핵심 작업을 차지한다.”고 언급하며, 데이터 중심 인공지능(Data-centric AI)의 중요성을 강조했다.

이를 쉽게 설명하면, “구슬이 서말이어도 꿰어야 보배”라는 속담처럼, 데이터(구슬)도 모델링이라는 과정을 거쳐야 실용적인 인공지능 모델(보배)이 되지만 애초에 고품질 데이터(좋은구슬)가 없다면, 아무리 정교한 모델링을 해도 실질적인 가치를 기대하기 어렵다는 것과 같다.

ⓒ News1 DB

따라서, 인공지능 시대를 준비하는 데 있어, 고품질 바이오 빅데이터를 어떻게 확보할 것인지에 대한 전략 수립은 매우 중요하다. 이를 위한 방법은 크게 두 가지로 나뉜다.

먼저 연구 현장에서 생산되는 다양한 데이터를 표준화하여 수집·통합하는 방식이다. 이때 데이터 형식과 품질을 일정 기준에 따라 정제하고, 통일된 체계로 큐레이션하는 과정이 필요하다. 이미 수집된 데이터의 경우에는 사후적으로 정합성을 높이는 데이터 하모니제이션(harmonization) 작업이 병행되어야 한다.

둘째, 표준화된 방식으로 새로운 데이터를 대규모로 생산하는 전략이다. 이러한 대규모 데이터 생산 프로젝트는 일관된 프로토콜과 품질관리 체계 아래에서 수행되며, 지속적인 업데이트와 확장이 가능하다는 장점이 있다.

실제로 바이오 선진국들은 데이터를 전략자산으로 인식하고, 이를 기반으로 한 공공 데이터 인프라 구축에 앞장서고 있다. 한국은 비교적 출발이 늦었지만, 국가 바이오 데이터 스테이션(K-BDS)을 통해 연구현장의 고품질 데이터를 체계적으로 수집하고 있으며, 국가 통합 바이오 빅데이터 구축사업을 통해 100만 명 규모의 임상·유전체 통합 데이터를 확보하는 등, 한국형 바이오 빅데이터 인프라 구축에 속도를 내고 있다.

이러한 흐름 속에서, 우리나라에서도 실정과 제도에 맞는 인공지능(Sovereign AI)과 국가 파운데이션 모델 구축의 중요성이 최근 강조되고 있다. 이를 실현하기 위해서는 바이오 인공지능 생태계가 학습할 고품질 데이터와 이를 학습한 파운데이션 모델을 핵심 전략자원으로 구축할 필요가 있다.

동시에, 예측형 AI를 활용한 사전학습용 데이터의 정제 및 큐레이션 체계 구축, 그리고 파운데이션 모델 기반의 예측형 AI 개발 등, 예측형 AI의 통합적 활용 전략이 요구된다.

이러한 방향을 실현하기 위해서는 산·학·연·병·관이 함께 참여하여, 선도적인 인공지능 모델 개발을 위한 정책과 실행 전략을 구체화해야 할 시점이다.

◇전종범 한국생명공학연구원 선임연구원

△국가생명연구자원정보센터(KOBIC) 바이오빅데이터실 데이터큐레이션팀장

△국가통합바이오빅데이터구축사업 유전체정보센터 데이터큐레이션팀장

△과학기술연합대학원대학교(UST) 겸임교수

△서울대학교 농생명유전체학 박사

*외부 필진의 기고문은 뉴스1의 편집 방향과 다를 수 있습니다.

esther@news1.kr