바이오-메디컬

인공지능! 얼른 우리에게 신약 후보 물질을 추천해줘!

AI_drug_development.jpg

Summary

신약 개발을 위해 인공지능 기술을 의학 분야에 접목한 특허에 대해 알아보기 위해, 다국적 회사들의 특허를 분석합니다.

안녕하세요, 파이특허법률사무소의 이진호변리사라고 합니다.

 

신종 코로나 바이러스의 확산이 지속되면서, 치료제 개발에 대한 관심도 높아지고 있습니다. 종래 전통적인 신약 개발 방법론에 따르면, 전문가들의 지식을 활용하여 적절한 후보 물질을 탐색하고, 이에 대한 임상 실험을 통한 검증 과정을 거쳐 신약이 개발됩니다.

 

그러나 이러한 전통적 신약 개발 방법은 많은 시간이 걸립니다. 특히 후보 물질 탐색 단계는 5000-10,000개의 후보 물질을 탐색해야하기 때문에 2-3년이라는 적지 않은 기간이 소요되었습니다.

 

이에 반해 전세계적 신종 전염병의 창궐 주기는 점점 짧아지고 있습니다. 이에 대응하기 위해서는 신약 개발의 주기 또한 단축되어야 합니다. 이를 위해, 인공지능 기술을 신약 개발 과정에 적용하여, 후보 물질 발굴 등 시간을 단축하려는 시도들이 이루어지고 있습니다.

 

인공지능을 이용한 신약개발은 이미 많은 회사들이 일정 성과를 거두고 있습니다. 그리고 인공지능 신약 개발을 위한 기술력을 축적하고 있습니다. 이러한 회사들의 기술력을 엿 볼 수 있는 효과적인 방법은 역시나 특허를 찾아보는 것 입니다.

 

인공지능을 이용한 신약 개발사들의 특허들을 살펴보면, 신약 개발을 위해 인공지능 알고리즘 자체를 새롭게 설계하는 것은 아닌 것으로 보입니다. 기존에 성능이 검증된 알고리즘을 활용하되, 신약 개발 분야에 필요한 데이터를 인공지능 알고리즘이 효율적으로 학습하기 위해 데이터를 전처리하는 방법에 그 노하우와 기술력이 집중되어 있는 것으로 보입니다.

 

데이터 전처리와 관련된 특허는, 인공지능 관련 특허의 한 카테고리 중 하나입니다. 많은 분들이 인공지능 관련 특허는 인공지능 모델의 새로운 설계가 있어야만 가능하다고 생각합니다. 그러나 데이터 전처리 관련 특허들도 독자적인 카테고리로서 신규성과 진보성이 있으면 특허 등록이 가능합니다.

 

인공지능 알고리즘 자체를 특정 연구 분야에 적용시키기 위해서는, 어떻게든 특정 연구 분야 데이터를 인공지능 알고리즘에 맞게 가공해야 하기 때문에, 실제 인공지능이 적용되는 도메인마다 특허출원의 가능성이 열려있다고 볼 수 있습니다.

 

인공지능 신약 개발 분야에서는 이러한 경향성이 특히 크다고 볼 수 있습니다. 아무래도 데이터 자체가 전문적인 자료들인 만큼, 어떠한 자료를 어떻게 처리하느냐에 따라서 인공지능을 이용한 신약 개발의 퍼포먼스 자체가 차별성을 갖기 때문입니다.

 

약학 분야에서 인공지능이 적용되는 사례를 살펴보기 위해 먼저 미국 기업인 아톰와이즈의 특허를 살펴본 후, 국내 기업인 스탠다임, 메리디타, 신테카 바이오의 특허를 차례대로 살펴보겠습니다.

 

1. 아톰와이즈

 

미국 스타트업 기업인 아톰와이즈는 인공지능을 이용한 신약 후보 물질 스크리닝 시스템인 아톰넷(Atomnet)을 개발하였습니다. 2019년에는 다국적 제약사 릴리와 5억 5000만 달러 규모의 계약을 맺어 더욱 주목 받는 회사입니다.

 

이렇게 ‘핫’한 아톰와이즈의 특허 중 등록 특허인 “Spatial data(3차원 공간 데이터)에 컨볼루셔널 네트워크를 적용하기 위한 방법”(US10482355)을 살펴보도록 하겠습니다.

 

본 특허를 간단히 설명하면 3차원 복슬맵(voxel map)을 CNN 모델에 입력시켜 테스트 오브젝트(예를 들어, 화합물)와 타겟 오브젝트 사이(예를 들어, 단백질, 폴리머)의 결합 선호도를 획득하게 됩니다.

 

좀 더 구체적으로 설명 드리면 컨볼루셔널 레이어에 3차원 복슬맵을 입력시켜 획득한 피처를 완전 연결 레이어에 입력하여 테스트 오브젝트와 타겟 오브젝트의 바인딩 선호도 점수를 획득하게 됩니다. 그리고 이 바인딩 선호도 점수를 기초로 클래스를 분류하게 되고, 테스트 오브젝트가 어떤 클래스에 속하는지 최종적으로 결정하게 되는 과정이 본 특허의 전체적인 프로세스 입니다.

 

아마 2차원 이미지를 CNN에 입력시키는 것에 익숙해지신 여러분들은 3차원 공간 데이터를 어떻게 CNN에 입력시키는지, 그리고 복슬맵이 어떤 형태의 데이터인지 궁금해하실 것 같습니다. 따라서 아래에서 해당 내용을 설명드리도록 하겠습니다.

 

간단히 설명 드리면 본 특허에서는 복슬맵을 1차원 벡터로 전개한 후, 전개된 1차원 벡터가 컨볼루셔널 레이어에 입력됩니다. 복슬(voxel)은 체적 요소로서 3차원 공간에서 정규 격자 단위 값을 나타냅니다. 그리고 복슬맵(voxel map)은 다양한 포즈의 화합물과 타겟 오브젝트(예를 들어, 단백질, 폴리머)의 활성 부위로 구성되어 있습니다. 좀 더 구체적으로 복슬맵을 설명 드리면, 복슬맵은 폴리머의 활성 부위를 복슬맵의 중심점으로 위치시킨 후, 다양한 포즈의 화합물의 위치를 복슬맵을 통해 표현하게 됩니다.

 

그렇다면 복슬맵은 타겟 오브젝트(단백질, 폴리머) 또는 테스트 오브젝트(화합물)에 대한 정보를 어떻게 표현할까요? 복슬맵의 각 복슬은 어떤 원자가 위치하느냐에 따라 각 복슬을 서로 다른 색으로 표현시킴으로서 타켓 오브젝트 또는 테스트 오브젝트에 대한 정보를 표현하게 됩니다. 또 다른 실시예로 각 복슬은 복슬에 위치하는 원자 번호로 표현이 될 수도 있습니다.

 

 

atomwise-01 atomwise-02
<3차원 복슬맵> <2차원으로 표현된 복슬맵, 원자에 따라 표현되는 색이 다름>

 

 

아톰와이즈의 특허는 테스트 화합물과 타겟 단백질의 결합 선호도를 예측하기 위해 CNN을 큰 변형 없이 적용하였습니다. 따라서 별다른 기술적 특징이 없어 보일 수도 있습니다.

 

하지만 본 특허는 테스트 화합물과 타겟 단백질의 결합 선호도 예측에 CNN을 이용하기 위해 입력 데이터를 3차원 복슬맵으로 구성한 점에서 기술적 특징이 있다고 생각됩니다.

 

이처럼 일반적인 인공지능 알고리즘에 입력되는 데이터를 어떻게 구성하는지에 대한 고민과 노하우를 아톰와이즈 특허를 통해 살펴볼 수 있었습니다.

 

그렇다면 국내 기업들은 어떤 방식으로 인공지능 알고리즘에 데이터를 입력시킬까요?

 

2. 스탠다임

 

먼저 스탠다임부터 살펴보도록 하겠습니다. 스탠다임은 2012년에 설립된 국내 스타트업으로서 인공지능 기반의 신약 설계를 하는 회사입니다.

 

스탠다임은 2019년에 SK로부터 100억원의 투자를 유치하면서 인공지능 기반의 신약 개발에 더욱 탄력을 받을 것으로 예상이 되어 더욱 주목되는 회사입니다.

 

이번 칼럼에서 살펴볼 스탠다임의 특허는 “기계 학습 앙상블 모델을 이용한 조합 약물의 효과 예측 방법” (KR2017-0031981)입니다.

 

조합 약물은 기존에 존재하는 약물들을 조합하는 방식으로 개발됩니다. 조합 약물은 기존 약물들의 조합에 의해 적절한 시너지 효능을 기대할 수 있으며, 단일 약물을 처방했을 때 보다 적은 양으로 효과를 볼 수 있기 때문에 부작용의 위험 또한 적습니다.

 

스탠다임의 특허는 이러한 조합약물의 평가를 위해 기계 학습 알고리즘을 사용하는 기술을 선보이고 있습니다.

 

스탠다임의 특허에서는 복수개의 그래디언트 부스팅 모델들 각각의 출력값에 대한 예측 신뢰도를 반영하여 모델들의 출력값을 합산한 결과를 조합 약물의 효과로 예측합니다. 그래디언트 부스팅 모델은 결정 트리와 같은 약한 분류기를 여러개 연결하여 만든 분류기로서 결정 트리의 예측 성능을 높인 분류기입니다. 그리고 본 특허에서의 예측 신뢰도는 조합 약물이 시너지 효과가 있을 확률을 의미합니다.

 

조합 약물의 평가 과정을 좀 더 쉽게 설명하기 위해 다음과 같은 예시를 들어 설명 드리도록 하겠습니다. 예를 들어, 특정 조합 약물에 대하여 그래디언트 부스팅 모델A는 0.96의 예측 신뢰도(조합 약물의 시너지가 있을 확률 96%)를 출력하고, 그래디언트 부스팅 모델B는 0.84의 예측 신뢰도(조합 약물의 시너지가 있을 확률 84%)를 출력할 수 있습니다. 이 경우, 그래디언트 부스팅 모델A의 출력과 그래디언트 부스팅 모델B의 출력을 합산하여 최종적으로 조합 약물의 효과를 평가합니다.

 

standigm-1
<복수개의 그래디언트 부스팅 모델>

 

 

이처럼, 스탠다임의 본 특허는 단순히 그래디언트 부스팅 모델을 이용하여 조합 약물의 효과를 예측하였습니다.

 

하지만 본 특허의 핵심은 아래에서 기술될 모델에 입력되는 데이터라고 볼 수 있습니다. 따라서 스탠다임은 입력 데이터를 어떻게 설계했는지 살펴보도록 하겠습니다.

 

본 특허에서 입력 데이터는 매트릭스 형태로 표현되어 있습니다. 입력 데이터 중 raw data로 볼 수 있는 유전자 레벨 데이터는 아래 그림과 같이 유전자를 행으로 하고, 샘플을 열로하는 매트릭스 형태입니다. 예를 들어, 유전자 레벨 돌연변이 매트릭스는 ‘유전자 레벨’의 돌연변이 관련 데이터를 포함합니다. 여기서 유전자 레벨 돌연변이 매트릭스는 특정 유전자에서 돌연변이가 있는 경우 1, 없는 경우 0으로 표시하게 됩니다.

 

standigm-2
<유전자 레벨에서의 돌연변이 매트릭스>

 

 

입력 데이터 중 전처리된 데이터로 볼 수 있는 경로 레벨 데이터는 경로를 행으로 하고, 샘플을 열로하는 매트릭스 형태입니다. ‘경로 레벨 데이터’는 ‘유전자 레벨 데이터’로부터 추출된 매트릭스이므로 데이터 가공 과정을 거친 데이터로 볼 수 있습니다.

 

따라서 간략히 정리하면 본 특허에서는 전처리 과정을 거친 ‘경로 레벨 데이터’를 인공지능 알고리즘(그래디언트 부스팅 모델)에 입력시켜 조합 약물의 효과를 예측했다고 볼 수 있습니다.

 

앞서 살펴본 바와 같이 스탠다임의 특허는 복잡한 세포 및 약물에 대한 데이터를 인공지능 모델에 입력시키기 위한 형태로 가공한 점에서 본 특허의 특허성이 있을 것으로 생각됩니다.

 

3. 메디리타

 

메디리타는 2018년에 창립한 회사로서 인공지능을 기반으로 신약 개발 기술을 연구하는 기업입니다.

 

메디리타의 경우, 전임상 이전의 신약 후보 물질을 발굴하기 위하여 인공지능 기술을 도입한 특허를 출원하였습니다.

 

메디리타의 등록 특허인 “신약 후보 물질의 효과 및 안정성 예측을 위한 데이터 처리 장치 및 방법”(KR2019-0028790)은 단순히 생물학적 네트워크를 CNN 모델에 입력하여 신약 후보 물질을 예측하였습니다. 여기서 생물학적 네트워크는 생물학적 엔티티(예를 들어, 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품)를 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 네트워크입니다.

 

앞서 살펴본 바와 같이 이미 성능이 검증된 CNN 모델을 신약 후보 물질의 효과를 예측하는데 사용하였습니다. 따라서 단순히 신약 후보 물질의 효과를 예측하기 위해 CNN을 적용한 것이므로 기술적 특징이 없어 보입니다. 그렇다면 어느 부분에 본 특허의 기술적 특징이 존재할까요?

 

본 특허의 기술적 특징이 될 수 있는 부분을 살펴보기 위해 CNN모델에 입력되는 데이터는 무엇이고 어떤 방법으로 모델에 입력될지 알아보도록 하겠습니다.

 

먼저, 신약 후보 물질 효과 예측을 위한 전체적인 프로세스를 통해 어떤 데이터가 입력되고 어떤 방법으로 입력되는지 설명 드리도록 하겠습니다.

 

(1) 유전자명, 단백질명, 질환명, 화합물명, 약품명과 같은 검색어를 사용자 인터페이스를 통해 입력합니다.

 

medirita-1
<검색어 입력>

 

 

(2) 검색어가 입력되면 검색어와 관련된 생물학적 엔티티 및 엔티티 간 상호연관도를 추출하여 이를 기초로 멀티오믹스 네트워크를 생성합니다. 이 멀티오믹스 네트워크가 바로 인공지능 모델에 입력되는 데이터입니다. 여기서 오믹스는 유전체를 비롯한 생물 분자, 세포, 조직, 기관 등의 집합체 전부를 일컫는 용어이고, 멀티오믹스는 서로 다른 오믹스 레벨 간의 총체적이고 통합적인 분석을 의미합니다.

 

medirita-2
<멀티오믹스 네트워크>

 

 

(3) 멀티오믹스 네트워크를 CNN 모델(Convolutional Neural Network)에 입력하여 검색어와 관련된 약물 가능 경로별 DP지수를 획득하게 됩니다. 여기서 약물 가능 경로 별 DP 지수는 약물 가능 경로로 적합한 것으로 예측되는 정도를 나타낸 지수를 의미하며, DP 지수가 높을수록 약물가능경로로 적합한 것을 나타냅니다.

 

(4) 그렇다면 입력 데이터인 멀티오믹스 네트워크는 어떤 방법으로 입력될까요? 구체적으로 멀티오믹스 네트워크는 복수개의 분할된 이미지 형태로 컨볼루션 레이어에 입력되며, 순차적으로 완전 연결 레이어 및 활성화 함수 레이어에 입력되어 최종 연산 결과인 약물 가능 경로별 DP지수를 출력하게 됩니다.

 

(5) 그리고 약물 가능 경로별 지수 중 높은 DP지수를 가지는 약물 가능 경로를 선택하여 해당 약물 경로의 효과 및 안정성에 대한 정보를 추출하게 됩니다.

 

정리하면, 메디리타의 특허는 신약 후보 물질의 효과 및 안정성을 이미지 분야에서 성능이 검증된 CNN을 통해 예측합니다.

 

하지만 CNN에 이미지 데이터를 입력하는 것은 여러 도메인에서 흔히 사용되는 기술에 해당하므로, 신약 개발 분야에서 약물 효과를 예측하기 위해 멀티오믹스 네트워크를 복수개로 분할하는 전처리를 통해 모델에 입력시키는 방법을 통해 특허성이 인정된 것으로 생각됩니다.

 

medirita-3
<약물 가능 경로별 DP 지수를 획득하는 과정>

 

 

4. 신테카 바이오

 

신테카바이오는 2009년에 설립된 국내 벤처 기업으로서 인공지능을 이용하여 바이오 사업을 하는 회사입니다.

 

신테카바이오의 등록 특허 “이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템”(KR2017-0185040)은 유전체 변이정보와 약리 관능기 반응성 정보를 CNN 모델에 입력시켜 약물 반응성을 예측하는 발명입니다. 즉, 본 특허는 유전체에 대한 약물 반응 정도를 임상시험 전에 예측할 수 있는 방법에 대하여 기술하고 있습니다.

 

그렇다면 딥러닝 모델을 어떻게 학습시키고, CNN에 데이터를 어떻게 입력시켜 약물의 반응성을 예측했는지 아래 도면을 통해 하나씩 설명드리도록 하겠습니다.

 

syntekabio-1

 

 

(1) 모델을 학습시키기 위한 학습 데이터는 어떻게 구성되는가?

 

본 특허에서 유전 정보 및 약물 구성정보는 학습 입력 데이터가 되고, 반응도는 라벨(정답) 데이터가 됩니다. 따라서 학습 과정에서 인공지능 모델의 출력과 라벨 데이터 사이의 오차를 줄이는 방법으로 딥러닝 모델의 학습이 진행되게 됩니다.

 

(2) 그렇다면 모델에 입력되는 데이터는 어떻게 생겼는가?

 

먼저 모델에 입력되는 데이터는 새로운 유전체에 포함된 변이 정보와 약물의 관능기 정보입니다. 입력 데이터는 도면에 도시된 바와 같이 매트릭스 형태이며 약물은 행에 대응되고 유전체는 열에 대응됩니다.

 

(3) 모델의 출력 데이터는 무엇인가?

 

모델에 유전체에 포함된 변이 정보 및 약물의 관능기 정보를 입력하면 해당 유전체 정보에 대한 반응성을 모델을 통해 획득하게 됩니다. 구체적으로 모델의 출력은 특정 질병(종양) 세포주의 변이 정보로부터 해당 질병의 약물 반응성(IC50)에 대한 예측값입니다.

 

신테카 바이오의 특허는 딥러닝 모델에 입력되는 데이터가 메트릭스인 점에서 스탠다임의 특허와 유사하다고 볼 수도 있습니다. 하지만 스탠다임의 특허는 유전자 또는 경로를 행으로 정의하고 열을 샘플로 정의한 반면, 신테카 바이오의 특허는 약물의 관능기 정보를 행으로 정의하고 유전체 변이 정보를 열로 정의하여 서로 다른 형태의 메트릭스를 사용하였으므로 2개 특허의 입력 데이터는 서로 다른 형태임을 알 수 있습니다.

 

결론

 

앞서 살펴본 아톰와이즈, 스탠다임, 메리디타, 신테카 바이오의 특허는 모두 약물의 효과를 예측하기 위하여 지도학습 방식으로 모델을 학습시키고 입력 데이터를 각자 원하는 예측값을 얻기 위해 기존에 있는 데이터를 모델에 맞게 가공하였습니다.

 

인체에 대한 약물의 효과는 매우 복잡하고 관련된 데이터의 양도 방대하므로, 어떤 형태로 방대한 양의 데이터를 모델에 입력시켜야 높은 정확도를 얻을 수 있는지에 대한 고민들을 엿볼 수 있었습니다.

 

하지만 입력 데이터를 결정하는 것은 신약 개발에 딥러닝을 적용하기 위한 시작 단계에 불과하다고 생각됩니다.

 

이미 성능이 검증된 인공지능 알고리즘을 특정 도메인에 적용시키기 위해서는 특정 도메인의 데이터를 인공지능 알고리즘에 적합하게 가공하는 기술부터 발전하기 때문입니다.

 

따라서, 인공지능에 기반한 신약 개발 분야는 다른 인공지능 응용 분야와 마찬가지로 경량화된 모델 개발을 위해 신약 개발에 최적화된 신경망 구조, 모델의 학습 방법 등이 추가적으로 깊게 연구될 것이라고 기대됩니다.

미국분석한국빅 데이터 & 클라우드 컴퓨팅특허의료·건강인공지능 & 로보틱스

저자 및 공동저자

"질문이 있으세요?"

"질문이 있으세요?"