검색 본문 바로가기 회사정보 바로가기

생물학도 AI 분석 시대…인간 게놈 293배 '식물 게놈 DB' 나왔다

인포보스, 식물 게놈 무료DB구축…생물정보학 분석 툴 연동
단백질 위치·분비 단백질 예측 정보 추가 예정

(서울=뉴스1) 김승준 기자 | 2020-08-20 11:29 송고
PGD 메인 (인포보스 제공) 2020.08.20 /뉴스1
PGD 메인 (인포보스 제공) 2020.08.20 /뉴스1

인포보스는 식물 게놈 데이터베이스(Plant Genome Database·PGD)를 구축했다고 20일 밝혔다. 인포보스는 인공지능(AI) 기술을 이용해 생물 유전체 빅데이터 분석을 해오고 있다.

생명정보학(Bioinfomatics)은 기존의 생물학과 정보학이 융합해, 유전정보를 AI 기술로 분석해 지금까지 연결시키지 못한 유전물질과 생명활동의 고리를 찾는 등, 생명현상의 이해를 넓히는 새로운 분야다. 인공지능을 활용한 분석을 위해서는 그 기초가 되는 데이터가 준비돼야한다. 

PGD는 게놈 아카이브(GenomeArchive)의 자료 표준화 구조를 바탕으로 식물 게놈 데이터를 통합한 데이터베이스로, 주석이 된 정보들 또한 제공하며 블래스트(BLAST)를 비롯한 생물정보학 분석 도구들을 사용할 수 있다. PGD는 모든 데이터 접근이 무료로 가능하다.

PGD에는 현재 식물 638종으로부터 수집된 총 1986개의 게놈이 있다. 수집된 유전정보의 총 양은 약 9395억7468만염기쌍(base pair, bp)으로 이는 인간 게놈 길이의 약 293배에 달한다.

PGD의 메인 페이지에서는 원시 식물인 회청조식물(Glaucophyte)부터 속씨식물(Angiosperm)까지 분류학 순서대로 나열되어 있으며, 각 분류별로 게놈의 양이 표시된다.

검색기능에서는 통합검색 및 BLAST 검색을 수행할 수 있다. 게놈 브라우저 탭은 시퀀스, 유전자, 단백질, tRNA, miRNA등을 포함한 정보를 제공하고 있다. 각 단백질별 상세 화면에서는 인터프로스캔(InterProScan)에 예측된 기능적 단위와, TMHMM에 의해 예측된 막횡단 헬릭스 (단백질) 정보도 같이 조회된다. 또한, PGD는 3695만여개의 단순반복염기서열 (Simple Sequence Repeat) 데이터를 같이 제공해준다.

PGD에는 사용자가 웹상에서 유전체, 염기서열 등을 저장하고, 분석 프로그램을 구동할 수 있는 글로벌스크랩(GlobalScrap)이 적용돼 데이터베이스 연동·분석의 편의성을 높였다.

PGD는 세포내 단백질 위치를 예측하는 타겟P(TargetP), 분비 단백질을 예측하는 시그날P(SignalP) 등의 도구를 추가하고, 기존 기능을 발전시킬 예정이다.

이번 식물게놈데이터 베이스는 국제 학술지 '생물정보학'(Bioinformatics)에서 유용한 분석 도구나 데이터베이스를 소개하는 애플리케이션 노트(application Notes) 부문에서 심사 중이다.


seungjun241@news1.kr

이런 일&저런 일

    더보기