2021.04.16

엔비디아, 아스트라제네카와 새로운 AI 연구 프로젝트 진행중

편집부 | ITWorld
엔비디아(www.nvidia.co.kr)가 바이오 제약사 아스트라제네카, 플로리다대 학술보건센터, UF헬스와 신경망 아키텍처인 ‘트랜스포머를 활용한 새로운 AI 연구 프로젝트’를 진행중이라고 밝혔다.

트랜스포머 기반 신경망 아키텍처를 통해 연구자들은 사전훈련 중에 수동으로 레이블링된 예제를 사용할 필요없이, 자가지도 학습을 통해 대규모 데이터 세트를 활용할 수 있다고 업체 측은 설명했다.



엔비디아는 아스트라제네카와 협력해 약물 발견에 사용되는 화학 구조용 트랜스포머 기반 AI 모델을 개발중이다. 이 모델은 영국 내 최대 슈퍼컴퓨터가 될 캠브리지-1(Cambridge-1)에서 실행되는 프로젝트 중 하나다. 또한, 오픈소스 형태로 제공돼 연구자와 개발자들은 엔비디아 NGC 소프트웨어 카탈로그를 통해 사용할 수 있으며, 컴퓨팅 기반의 신약 발견을 위해 엔비디아 클라라 디스커버리(NVIDIA Clara Discovery) 플랫폼에 배포할 수 있다.

UF 헬스는 NGC에서 이용가능한 엔비디아의 최첨단 메가트론(Megatron) 프레임워크와 바이오 메가트론(BioMegatron) 사전교육 모델을 활용해 최대 임상 언어 모델인 게이터트론(GatorTron)을 개발하고 있다.

새로운 NGC 애플리케이션에는 DNA의 접근가능한 영역을 식별하는 딥 러닝 모델인 에이텍웍스(AtacWorks)와 희소하고 모호하거나 노이즈가 많은 데이터에서 생체 분자의 구조를 추론하는 툴인 MELD가 포함된다.

엔비디아와 아스트라제네카가 개발중인 메가몰바트(MegaMolBART) 약물 발견 모델은 반응 예측, 분자 최적화, 드 노보(de novo) 분자 생성에 사용될 예정이다. 이 모델은 아스트라제네카의 몰바트(MolBART) 트랜스포머 모델을 기반으로 하며, 엔비디아의 메가트론 프레임워크를 사용해 ZINC 화합물 데이터베이스에서 훈련되어, 슈퍼컴퓨팅 인프라에서 대규모 확장 훈련이 가능하다.

대규모 ZINC 데이터베이스를 통해 연구원은 화학 구조를 이해하는 모델을 사전학습해 수동으로 라벨링된 데이터의 필요성을 제거할 수 있다. 화학에 대한 통계적 이해로 무장한 이 모델은 화학 물질이 서로 반응하는 방식을 예측하고 새로운 분자 구조를 생성하는 것을 포함한 여러 다운스트림 작업에 이상적이다.

아스트라제네카의 분자 AI, 발견과학 및 연구개발(R&D) 담당 총괄인 올라 엥크비스트는 “AI 언어 모델이 문장에서 단어 간의 관계를 학습할 수 있는 것처럼, 우리의 목표는 분자 구조 데이터에 대해 훈련된 신경망이 실제 분자에서 원자 간의 관계를 학습하도록 하는 것”이라며, “해당 NLP 모델이 개발되면, 오픈소스 형태로 제공돼 과학계가 약물발견을 가속화하는데 사용할 수 있는 강력한 툴이 될 것”이라고 말했다.

엔비디아 DGX 슈퍼POD(SuperPOD)를 사용해 훈련되는 이 모델은 연구원들에게 데이터베이스에 존재하지 않지만 잠재적인 약물 후보가 될 수 있는 분자에 대한 아이디어를 제공한다. 인-실리코(in-silico) 기술로 알려진 계산법을 사용하면 약물 개발자가 비용과 시간이 많이 소요되는 실험실 테스트로 전환하기 전에 더 많은 화학공간을 검색하고 약리학적 특성을 최적화할 수 있다. editor@itworld.co.kr


2021.04.16

엔비디아, 아스트라제네카와 새로운 AI 연구 프로젝트 진행중

편집부 | ITWorld
엔비디아(www.nvidia.co.kr)가 바이오 제약사 아스트라제네카, 플로리다대 학술보건센터, UF헬스와 신경망 아키텍처인 ‘트랜스포머를 활용한 새로운 AI 연구 프로젝트’를 진행중이라고 밝혔다.

트랜스포머 기반 신경망 아키텍처를 통해 연구자들은 사전훈련 중에 수동으로 레이블링된 예제를 사용할 필요없이, 자가지도 학습을 통해 대규모 데이터 세트를 활용할 수 있다고 업체 측은 설명했다.



엔비디아는 아스트라제네카와 협력해 약물 발견에 사용되는 화학 구조용 트랜스포머 기반 AI 모델을 개발중이다. 이 모델은 영국 내 최대 슈퍼컴퓨터가 될 캠브리지-1(Cambridge-1)에서 실행되는 프로젝트 중 하나다. 또한, 오픈소스 형태로 제공돼 연구자와 개발자들은 엔비디아 NGC 소프트웨어 카탈로그를 통해 사용할 수 있으며, 컴퓨팅 기반의 신약 발견을 위해 엔비디아 클라라 디스커버리(NVIDIA Clara Discovery) 플랫폼에 배포할 수 있다.

UF 헬스는 NGC에서 이용가능한 엔비디아의 최첨단 메가트론(Megatron) 프레임워크와 바이오 메가트론(BioMegatron) 사전교육 모델을 활용해 최대 임상 언어 모델인 게이터트론(GatorTron)을 개발하고 있다.

새로운 NGC 애플리케이션에는 DNA의 접근가능한 영역을 식별하는 딥 러닝 모델인 에이텍웍스(AtacWorks)와 희소하고 모호하거나 노이즈가 많은 데이터에서 생체 분자의 구조를 추론하는 툴인 MELD가 포함된다.

엔비디아와 아스트라제네카가 개발중인 메가몰바트(MegaMolBART) 약물 발견 모델은 반응 예측, 분자 최적화, 드 노보(de novo) 분자 생성에 사용될 예정이다. 이 모델은 아스트라제네카의 몰바트(MolBART) 트랜스포머 모델을 기반으로 하며, 엔비디아의 메가트론 프레임워크를 사용해 ZINC 화합물 데이터베이스에서 훈련되어, 슈퍼컴퓨팅 인프라에서 대규모 확장 훈련이 가능하다.

대규모 ZINC 데이터베이스를 통해 연구원은 화학 구조를 이해하는 모델을 사전학습해 수동으로 라벨링된 데이터의 필요성을 제거할 수 있다. 화학에 대한 통계적 이해로 무장한 이 모델은 화학 물질이 서로 반응하는 방식을 예측하고 새로운 분자 구조를 생성하는 것을 포함한 여러 다운스트림 작업에 이상적이다.

아스트라제네카의 분자 AI, 발견과학 및 연구개발(R&D) 담당 총괄인 올라 엥크비스트는 “AI 언어 모델이 문장에서 단어 간의 관계를 학습할 수 있는 것처럼, 우리의 목표는 분자 구조 데이터에 대해 훈련된 신경망이 실제 분자에서 원자 간의 관계를 학습하도록 하는 것”이라며, “해당 NLP 모델이 개발되면, 오픈소스 형태로 제공돼 과학계가 약물발견을 가속화하는데 사용할 수 있는 강력한 툴이 될 것”이라고 말했다.

엔비디아 DGX 슈퍼POD(SuperPOD)를 사용해 훈련되는 이 모델은 연구원들에게 데이터베이스에 존재하지 않지만 잠재적인 약물 후보가 될 수 있는 분자에 대한 아이디어를 제공한다. 인-실리코(in-silico) 기술로 알려진 계산법을 사용하면 약물 개발자가 비용과 시간이 많이 소요되는 실험실 테스트로 전환하기 전에 더 많은 화학공간을 검색하고 약리학적 특성을 최적화할 수 있다. editor@itworld.co.kr


X