예측형 AI시대, 가장 강력한 자산은 '유전체 데이터'[혁신의 창]

(서울=뉴스1) 나경주 서울대학교 NICEM 유전체분석센터장 = 인공지능(AI)의 발전은 전통적인 과학 연구의 방식에 근본적인 변화를 일으키고 있다.
특히 첨단 기초과학의 연구 성과를 산업 전반에 연결함으로써, 과학기술이 국가 경쟁력의 핵심 자산으로 기능하는 시대가 도래했다.
생물학, 물리학, 화학과 같은 기초과학은 단지 학문적 성취를 위한 분야에 그치지 않고, 바이오·헬스케어, 에너지, 환경, 식량안보 등 인류의 지속가능성과 직결된 핵심 산업군의 기술적 토대를 제공하고 있는 것이다.
최근 주목할 만한 흐름은 이러한 기초과학 분야에 ‘예측형 인공지능(Predictive AI)’이 접목되면서 산업적 활용 가능성이 급속히 확장되고 있다는 점이다.
예측형 인공지능은 대규모의 정제된 데이터와 수학적 모델을 기반으로 특정 현상이나 미래 결과를 정량적으로 예측하는 기술로서 과거의 데이터를 학습하여 원인과 결과 간의 관계를 해석하고, 이를 바탕으로 과학적 가설 검증, 실험 조건 최적화, 신약 후보 물질 발굴, 물질 설계 등 고난도의 문제 해결에 활용된다.
이러한 적용은 생성형 AI와 차별화되는 예측형 AI만의 실질적 가치다. 이 과정에서 기초과학 연구에서 축적된 정밀한 데이터는 필수 불가결한 요소다. 물리, 화학, 생물학 실험을 통해 생산된 고품질 데이터는 예측형 인공지능의 정확도와 신뢰도를 결정짓는 기반이며, 기초과학 기반이 탄탄할수록 예측형 AI의 성능 또한 극대화된다.
특히 ‘데이터 기반 생물학(Biology as Data)’ 시대를 맞아, 유전체 데이터는 예측형 AI의 가장 강력한 자원으로 떠오르고 있다.
유전체학은 생명의 기본 정보를 담고 있는 DNA를 분석하여 인간의 질병 발생 원인, 치료 방법 등을 탐구하는 학문이다. 최근에는 유전체 데이터가 정밀 의료, 질병 예방, 맞춤형 치료법 개발에 중요한 역할을 하고 있다.
예측형 AI는 유전체 데이터를 기반으로 미래의 질병 발생 가능성을 예측하고, 이를 바탕으로 적절한 예방 및 치료법을 제시할 수 있다.
예를 들어 유전체(Genome)는 개인의 유전적 특성과 질병 위험도를 담고 있는데 AI는 방대한 유전체 데이터를 학습하여 특정 유전자 변이와 질병의 상관관계를 파악함으로써, 암, 당뇨, 희귀질환 등의 발병 가능성을 예측할 수 있으며 이를 통해 정밀의료(Precision Medicine)와 맞춤형 치료 전략이 가능해진다.
특히 신약 개발 가속화 AI는 유전체 데이터와 환자 반응 데이터를 분석해 신약의 타겟 유전자를 발굴하거나 부작용 예측이 가능한데 기존의 임상시험 데이터와 유전체를 함께 분석하면, 신약 후보물질의 성공 확률을 높이고 개발 비용과 기간을 줄일 수 있다. 또한 AI는 유전체 정보를 통해 진단용 바이오마커를 빠르게 찾아낼 수 있다.
AI가 신뢰성 있는 예측을 하려면 대규모 고품질 데이터가 필요한데 유전체 데이터가 이미 많이 축적되었음에도 불구하고, 계속해서 생산되어야 하는 중요한 이유는 다음과 같다.
첫째, 인간 유전체는 개인마다 다르고, 인종, 지역, 성별, 환경에 따라 큰 차이를 보인다. 현재까지의 데이터는 특정 국가나 인종(주로 서구권 백인)에 편중된 경우가 많기 때문에, 전 세계 인구의 유전적 다양성을 제대로 반영하지 못한다. 다양한 집단의 데이터를 계속 수집해야 AI 모델이 더 보편적이고 정확한 예측을 할 수 있다.
둘째, AI는 더 많은 데이터, 더 다양한 사례를 학습할수록 정확도가 높아진다. 새로운 변이, 복합 유전형, 드물게 나타나는 유전병 등은 기존 데이터로는 충분히 반영되지 않기 때문에, 지속적인 유전체 데이터 확보가 필요하다.
셋째, 일부 유전 변이는 아주 드물게 발생하지만, 특정 질병과 밀접한 관련이 있을 수 있다. 이러한 희귀 변이를 발견하려면 수많은 유전체를 비교하고 축적해야만 가능하다.
넷째, 신약의 유전자 타겟은 다양하고 복잡하다. 질병과 관련된 새로운 유전자 타겟을 발견하려면 지속적인 유전체 연구가 필요하다. 예측형 AI가 유전체를 기반으로 환자 맞춤형 치료를 하려면, 데이터가 계속 갱신되어야 한다.
다섯째, 바이러스 변이, 환경오염, 식습관 변화 등은 질병 유전 양상을 바꾸기도 한다. 유전체 데이터를 꾸준히 수집해야 시간 흐름에 따른 변화 추적이 가능하며, AI 모델도 이를 반영해 시의적절한 예측을 할 수 있다.
여섯째, 바이오 분야 AI 경쟁에서 데이터는 곧 자산이다. 유전체 데이터를 확보한 국가나 기업은 정밀의료, 신약개발, 보건예측 등 다양한 분야에서 우위를 점하게 된다. 따라서 지속적인 데이터 생산은 전략적 가치를 가진다.
유전체 데이터는 단순히 한 번 수집해서 끝나는 것이 아니라, 시간, 공간, 환경, 인구 변화에 따라 지속적으로 축적·갱신되어야 예측형 AI와 바이오 산업이 제대로 작동할 수 있다.
고품질 유전체 데이터 확보와 해석 기술이 예측형 바이오 AI의 핵심 경쟁력으로 떠오르고 있는 현시점에서 유전체 데이터는 AI 기술과 함께 글로벌 시장 선도와 기술 상용화라는 실질적인 가치를 창출한다는 점에서 중요한 자산임을 기억해야 할 것이다.
◇나경주 서울대학교 NICEM 유전체분석센터장
△애리조나주립대 식물학(유전체학) 박사
△서울대 식물생산과학부 책임연구원
△서울대 농업과학공동기기연구원(NICEM), 유전체분석센터장
*외부 필진의 기고문은 뉴스1의 편집 방향과 다를 수 있습니다.
esther@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.








