생성형 AI가 만능? 추론형 AI 있어야 진짜 혁신 온다[혁신의 창]

ㅍㅁ

(서울=뉴스1) 박춘구 전남대 생명과학기술학부 교수 = 인공지능과 머신러닝 연구를 논할 때 전 세계 학계와 산업계에서 공통의 이론적 언어로 자리 잡은 정의가 있다. 바로 카네기멜론대학교의 저명한 석학 Tom Mitchell 교수가 제시한 머신러닝의 공식적 정의다.

Mitchell 교수는 세계 최초로 머신러닝 학과를 설립하고, 수많은 연구자와 실무자들이 필수적으로 참조하는 교과서를 집필한 인물로, 그 이론과 실천의 영향력은 단연 독보적이다.

그는 “컴퓨터 프로그램이 어떤 작업(Task)을 수행하는 데 있어, 경험(Experience)을 통해 성능(Performance)이 지속적으로 향상된다면, 그 프로그램은 학습하고 있다”고 설명하며, 복잡한 시스템의 학습 메커니즘을 작업, 경험, 성능이라는 세 가지로 간명하게 요약했다.

이 프레임워크가 실제로 어떻게 작동하는지 합성생물학 분야의 효소 발굴을 예로 들어보자. 플라스틱 분해 효소를 찾는 AI 시스템을 개발한다고 가정하면, 작업(T)은 수백만 개의 단백질 서열 데이터에서 플라스틱 분해 활성을 가진 효소를 예측하는 것이다. 경험(E)은 이미 알려진 효소들의 서열 정보와 구조, 그리고 실험적으로 검증된 활성 데이터다. 성능(P)은 AI가 예측한 후보 효소들이 실제 실험에서 플라스틱을 분해하는 비율, 즉 예측 정확도로 측정된다.

흥미로운 점은 이러한 효소 발굴 과정에서 추론형 AI(Inference AI) 가 여전히 핵심적인 역할을 한다는 것이다. 2022년 텍사스대학 연구팀이 개발한 FAST-PETase는 추론형 모델로, 기존 효소의 변이체를 스크리닝하여 24시간 만에 PET을 분해하는 효소를 찾아냈다. 최근에는 바이오연료와 관련된 효소 분야 전반에서 대규모 메타게놈 데이터를 활용해 AI 기반 모델로 새로운 리그닌 분해 효소 후보를 예측하고, 이들 중 일부를 실험적으로 검증해 생물학적 전환 효율의 개선을 확인하는 연구가 다수 보고되고 있다.

이러한 AI 중심의 효소 후보 선별 및 기능 예측 접근은 방대한 데이터 속에서 목표 효소를 정확하고 신뢰성 있게 찾아내는 데 탁월하며, 기존의 탐색 방식 대비 높은 신속성과 효율성을 제공한다는 점에서 주목받고 있다.

ⓒ News1 양혜림 디자이너

최근 들어 생성형 AI(generative AI) 가 큰 주목을 받으면서 마치 모든 문제를 해결할 수 있는 만능 도구처럼 여겨지고 있다. DeepMind의 AlphaFold가 단백질 구조 예측에 혁명을 일으킨 이후, ESM-2, ProtGPT2 같은 생성형 모델들이 새로운 효소 서열을 ‘창조’하기 시작했다. Salesforce Research에서 개발한 언어모델 ProGen은 자연계에 존재하지 않는 새로운 항균 효소를 설계하였고, 이중 약 73%가 실험적으로 기능을 가진 항균 효소로 확인되었다는 인상적인 연구 결과를 보고하였다.

하지만 현장에서는 다른 이야기가 들린다. 생성형 AI가 만든 효소의 대부분은 실제 산업 환경에서 요구되는 안정성, 생산성, 경제성을 충족하지 못한다. 더 큰 문제는 ‘블랙박스’ 특성이다. 생성형 모델이 왜 특정 서열을 제안했는지 설명하기 어렵고, 이는 규제 승인과 안전성 검증에서 큰 장애물이 된다. 반면, 추론형 모델은 기존 효소와의 유사성, 활성 부위의 특징 등 예측 근거를 명확히 제시할 수 있어 신뢰성이 높다.

실제로 산업계에서는 AI 기반 효소 발굴에 추론형과 생성형 모델을 함께 활용하는 시도가 늘어나고 있다. 예를 들어 유럽 스타트업 Biomatter는 생성형 AI로 새로운 효소 서열을 설계하고, 추론형 AI로 가능성 높은 후보를 선별하는 방식을 사용해 효율성을 높이고 있다. 미국 일리노이대의 셀프드라이빙 랩도 추론형 AI와 생성형 로봇 자동화를 결합해 적은 실험으로 효소 성능을 크게 개선하는 플랫폼을 구축했다. 이렇게 두 모델을 함께 쓰면 AI 기반 효소 발굴과 최적화 속도가 빨라지고, 산업 적용 가능성이 높아진다. 이러한 시도들은 바이오 분야 혁신을 앞당기는 중요한 움직임으로 평가받고 있다.

추론형과 생성형 모델의 상호보완적 활용이 중요한 이유는 각각의 강점이 명확히 다르기 때문이다. 추론형 모델은 해석 가능성, 신뢰성, 재현성에서 우수하다. 실험 데이터와의 상관관계를 학습하여 높은 정확도로 예측하고, 그 근거를 설명할 수 있다. 이는 규제가 엄격한 바이오 산업에서 필수적이다. 반면, 생성형 모델은 창의성과 탐색 범위에서 강점을 보인다. 기존 데이터의 한계를 넘어 새로운 가능성을 제시할 수 있다.

따라서 효과적인 전략은 ‘이중 트랙 접근법’이다. 첫 단계에서는 추론형 모델로 검증된 효소 후보군을 찾는다. 이는 마치 넓은 바다에서 물고기가 많은 지역을 찾는 것과 같다. 두 번째 단계에서는 생성형 모델로 선별된 효소를 개량하거나 변형한다. 이는 잡은 물고기를 요리하는 과정에 비유할 수 있다. 마지막으로 다시 추론형 모델로 개량된 효소의 성능을 예측하고 우선순위를 정한다.

이러한 균형잡힌 접근이 필요한 또 다른 이유는 데이터의 한계다. 생물학 데이터는 여전히 부족하고 편향되어 있다. 생성형 모델이 아무리 창의적이어도 학습 데이터의 한계를 완전히 벗어날 수는 없다. 오히려 편향을 증폭시킬 위험이 있다. 반면 추론형 모델은 제한된 데이터에서도 신뢰할 만한 예측을 할 수 있도록 설계되어 있다. 따라서 데이터가 충분하지 않은 새로운 효소 계열을 탐색할 때는 추론형 모델이 더 안전한 선택이다.

ⓒ News1 윤주희 디자이너

산업계가 AI 기반 효소 발굴을 성공적으로 수행하려면 몇 가지 원칙을 지켜야 한다.

첫째, 목적에 맞는 모델을 선택해야 한다. 기존 효소의 개량이 목표라면 추론형 모델이, 완전히 새로운 효소 설계가 목표라면 생성형 모델이 적합하다.

둘째, 항상 실험 검증을 병행해야 한다. AI는 도구일 뿐, 최종 판단은 실험 결과가 내린다.

셋째, 두 모델의 장점을 결합하는 파이프라인을 구축해야 한다. 추론형으로 찾고, 생성형으로 개량하고, 다시 추론형으로 검증하는 순환 구조가 이상적이다.

규제 측면에서도 균형잡힌 접근이 유리하다. 규제 당국은 AI의 예측 근거와 안전성을 중시한다. 추론형 모델은 명확한 근거를 제시할 수 있어 승인이 상대적으로 수월하다. 생성형 모델로 만든 효소는 추가적인 안전성 검증이 필요하다. 따라서 추론형 모델로 1차 검증을 거친 후 생성형 모델로 개량하는 전략이 규제 리스크를 줄일 수 있다.

결론적으로, Mitchell 교수의 TEP 프레임워크는 추론형과 생성형 AI 모두에 적용되는 보편적 원리다. 하지만 각 모델이 TEP를 구현하는 방식은 다르다. 추론형은 명확한 Task에 대해 검증된 Experience로 예측 가능한 Performance를 추구한다. 생성형은 창의적인 Task에 대해 확장된 Experience로 혁신적인 Performance를 목표로 한다.

지금 생물기반 분야에 필요한 것은 생성형 AI에 대한 맹목적 추종이 아니라, 추론형과 생성형의 균형잡힌 활용이다. 마치 좋은 요리가 신선한 재료와 뛰어난 조리법이 어울려질 때 완성되듯, AI 기반 효소 발굴도 추론형의 신뢰성과 생성형의 창의성을 모두 필요로 한다. 이 두 접근법의 시너지가 플라스틱 오염, 기후변화 같은 인류의 도전 과제를 해결할 열쇠가 될 것이다. 생성형 AI가 만능이라는 환상에서 벗어나 각 도구의 장단점을 정확히 이해하고 상황에 맞게 활용하는 지혜가 진정한 혁신을 가능하게 할 것이다.

◇박춘구 전남대 생명과학기술학부 교수

△펜실베니아주립대 생물학 박사

△미국 국립보건원 연구원 역임

△시스템정보생명과학연구소장

*외부 필진의 기고문은 뉴스1의 편집 방향과 다를 수 있습니다.

esther@news1.kr