특허의 관점에서 보는 디퓨전 모델

Summary

디퓨전 모델과 관련하여 출원된 특허들을 분석하고, 디퓨전 모델과 관련된 기술의 권리화 동향 및 향후 전망을 전달하는 칼럼

Midjourney, DALL-E 2, 스테이블 디퓨전과 같은 생성 모델의 등장으로, 누구나 쉽게 인공지능을 활용하여 그럴듯한 이미지를 만들 수 있는 환경이 갖추어졌습니다. 이와 동시에 생성 모델과 관련된 논란 및 고민거리 또한 폭발적으로 증가하고 있는 추세죠. 본 포스팅에서는 생성 모델 중 최근 활발하게 연구되고 있는 ‘디퓨전 모델’과 관련하여 출원된 특허들을 분석하고, 디퓨전 모델과 관련된 기술의 권리화 동향 및 향후 전망에 대해 살펴보고자 합니다.

디퓨전 모델

디퓨전(Diffusion) 모델이란, 기존에 존재하지 않았지만 학습 데이터와 유사한 데이터를 생성하는 인공지능 모델인 생성 모델(Generative model)의 일종입니다.

디퓨전 모델은 완전한 노이즈로부터 노이즈를 점진적으로 제거하여 최종적으로 노이즈가 끼지 않은, 우리가 원하는 데이터 즉 원본 데이터를 생성합니다. 이와 같이 디퓨전 모델이 노이즈를 점진적으로 제거하는 과정을 디노이징 과정(Denoising process)이라고 하는데요, 디퓨전 모델은 어떻게 디노이징 과정을 수행할 수 있는 걸까요?

디퓨전 모델을 학습시키기 위해, 하나의 원본 이미지에 미리 결정된 노이즈를 조금씩 더하여 여러 개의 노이즈가 낀 이미지를 생성합니다. 예를 들어, 원본 이미지(X0))에 작은 노이즈를 조금씩 더하여 1000번 노이즈를 더한 때(T=1000) 원본 이미지가 완전한 노이즈(XT)가 되는 상황을 생각해 볼 수 있습니다.

디퓨전 모델에게 노이즈를 조금씩 더하는 과정을 보여준 후 노이즈를 더하는 과정의 반대 과정, 즉 노이즈를 조금씩 빼는 과정을 학습하도록 한다면, 학습된 모델은 노이즈를 입력받아 노이즈가 조금 제거된 이미지를 생성할 수 있습니다. 노이즈가 조금 제거된 이미지를 다시 모델에 입력하여 노이즈가 두 번 제거된 이미지를 생성하고, 이런 결과를 반복하면 결국 마지막에는 노이즈가 없는 완전한 이미지를 얻을 수 있을 것입니다.

구체적으로 하나의 원본 이미지로부터 1000장의 학습용 이미지를 만들고, 디퓨전 모델에 더한 노이즈의 횟수(t)에 대한 정보와 노이즈를 더한 결과 이미지(Xt)에 대한 정보를 줍니다. 이렇게 함으로써, 디퓨전 모델이 노이즈를 더하는 조건부 확률분포(q)로부터 노이즈를 빼는 조건부 확률분포(pθ) 즉 노이즈를 더하는 과정의 반대 과정을 학습하도록 할 수 있습니다.

<도식화된 디퓨전 모델의 학습과정 | 출처: 논문>

위와 같은 디퓨전 모델의 기본적인 구조를 응용하여 추가적인 텍스트를 디노이징 과정에 반영하는 모델, 이미지 자체가 아닌 특징 맵(Feature map)을 디노이징한 후 원본 이미지로 디코딩하는 모델 등을 설계할 수 있습니다.

2020년 6월에 발표된 <Denoising diffusion probabilistic models(DDPM)>, 2021년 5월에 발표된 <Diffusion Models Beat GANs on Image Synthesis>와 같은 논문의 성과에 힘입어 디퓨전 모델은 생성 모델의 새로운 흐름으로 부상하게 되었고, 지금은 생성 모델 분야에서 가장 활발하게 연구되는 주제 중 하나가 되었습니다. 최근에는 이미지뿐만이 아니라 비디오, 음성 분야에서도 디퓨전 모델을 활용하여 문제를 해결하려는 시도 또한 증가하는 추세입니다.

이렇게 디퓨전 모델에 많은 관심이 몰리고 있는 상황에서, 디퓨전 모델을 활용한 기술들은 얼마나 특허의 형태로 권리화되고, 얼마나 잘 보호되고 있는지 더 알아보도록 하겠습니다.

연도별 디퓨전 모델 관련 특허 출원 현황

디퓨전 모델과 관련된 특허 출원 동향에 대해 알아보기 위해, 파이특허는 자체 개발한 데이터 검색 공식을 활용하여 인공지능 기반 특허 분석 데이터베이스인 키워트의 데이터를 분석했습니다. 검색 공식을 활용하여 검출된 1,500개 내외의 특허 중 노이즈를 제거하고, 총 76건의 특허가 디퓨전 모델 관련 특허로 판별되었습니다. 디퓨전 모델이 생성 모델 분야에서 가장 활발하게 연구되는 주제일텐데, 디퓨전 모델과 관련된 특허의 수는 상당히 적은 것에 당황하는 독자분들도 계실 것이라 생각됩니다.

디퓨전 모델의 아이디어 자체는 2015년의 <Deep Unsupervised Learning using Nonequilibrium Thermodynamics> 논문에서 제시되었으나, 생성 모델로서 디퓨전 모델이 주목받기 시작한 것은 위에서 언급하였듯 2021년 이후입니다. 통상적으로 특허가 출원된 후 1년 6개월 후에 공개되는 것을 고려할 때, 실제로는 디퓨전 모델과 관련하여 많은 수의 특허가 출원되었으나 그 중 상당수의 특허는 아직 미공개 상태인 것으로 보입니다. 당소에서도 디퓨전 모델을 활용한 특허를 출원하였으나, 해당 특허 또한 현재 공개되지 않은 상황입니다.

현재 공개된 특허들의 출원일자로 보면, 76건의 특허 중 2021년 이전에 출원된 특허는 불과 6건이었으나 2021년에 6건, 2022년에 35건이 출원되었고, 2023년에는 1월부터 6월 사이에 29건의 특허가 출원되었습니다. 출원되었으나 공개되지 않은 특허들의 수까지 고려한다면 디퓨전 모델 관련 특허의 출원 수는 2021년을 기점으로 폭발적으로 늘어난 모양새입니다. 2020년과 2021년에 앞서 언급한 디퓨전 모델과 관련된 중요한 특허들이 발표되었음을 고려할 때 특허 출원 현황과 최신 연구 동향이 어느 정도 일치한다고 해석할 수 있습니다.

국가별 출원 동향을 살펴보면, 76건의 특허 중 중국 68건, 미국 6건, 한국 1건으로 현재 공개된 특허 중 대부분의 특허가 중국에서 출원되었습니다. 중국에서 출원된 특허들의 출원일자와 공개일자 사이의 기간이 짧은 것으로 보아 중국의 출원인들 중 상당수가 특허 출원 후 기술을 조기 공개하는 전략을 취하고 있는 것으로 보입니다.

<연도별 디퓨전 모델 관련 특허 출원 현황>

데이터 도메인 별 디퓨전 모델 관련 특허 출원 현황

다음으로는, 데이터의 도메인 별 디퓨전 모델 관련 특허들의 동향을 알아보겠습니다.

데이터의 도메인 별로 지금까지 공개된 디퓨전 모델 관련 특허들의 출원 현황은 다음과 같습니다.

<데이터의 도메인 별 디퓨전 모델 관련 특허 출원 현황>

도표에서 이미지 도메인에 대한 특허가 46건인 것과 비교하여, 비디오 도메인 및 오디오 도메인은 각각 3건과 6건의 출원이 공개된 것으로 파악되며, 3D 도메인과 관련해서도 4건의 출원이 공개되었습니다. 살펴보면, 이미지 도메인에 대한 디퓨전 모델 관련 특허가 비디오, 3D 및 오디오 도메인에 비해 압도적으로 많은 걸 볼 수 있습니다.

이와 같이 이미지 도메인에 대한 특허들은 다른 도메인들에 비해 압도적으로 많이 출원되고, 공개되었습니다. 그렇다면, 현재 공개된 이미지 도메인에 대한 디퓨전 모델 관련 특허들은 어떤 내용으로 구성되어 있는지, 예시를 들어 살펴보도록 하겠습니다.

이미지 도메인에 대한 디퓨전 모델 관련 특허

이미지 도메인에 대해 공개된 특허들 중 Nvidia 사가 출원한 “Diffusion-based generative modeling for synthetic data generation systems and applications”라는 명칭의 미국 공개 특허 US 2023-0109379를 살펴보겠습니다.

일반적으로 디퓨전 모델은 단계마다 노이즈를 제거하면서, 새로운 이미지를 생성합니다. 노이즈 제거를 할 때, 노이즈 제거의 모든 단계(예를 들어, 1000단계)를 수행하지 않고, 중간중간 단계를 건너뛰어서(sampling) 노이즈를 제거하게 되면(예를 들어, 5단계씩 건너뛰어 200단계) 디노이징 과정의 속도를 향상시킬 수 있습니다. 다만, 그렇게 되면 모든 단계를 수행하여 생성된 데이터와 비교하여 결과물의 퀄리티 및 다양성이 감소되는 문제가 있었습니다.

해당 발명은 이러한 문제를 해소하기 위해서, 근사값을 이용하여 원본과 비슷한 퀄리티를 얻으면서, 계산 속도를 빠르게 하는 방법을 이용하였습니다. 구체적으로는, 미분(도함수)을 이용하여 근사값을 계산하는 방식을 활용하였습니다.

즉, 기존의 노이즈 제거 과정에서는 데이터 자체에 포함된 노이즈 예측을 수행하였다면, 해당 방법은 데이터의 변화(데이터의 시간 도함수)에 포함된 노이즈 예측을 수행함으로써 노이즈를 뺀 데이터 자체를 예측하는 계산을 근사할 수 있고, 이에 따라 계산과정이 기존의 경우보다 간단해져 샘플링 속도가 빨라질 수 있습니다.

예를 들어, 그래프 위의 정확한 y값이 이미지 데이터의 픽셀값이라고 가정할 때, x가 1, 4, 9와 같은 경우 y값은 1, 2, 3 으로 쉽게 계산이 가능하나, x=4.2인 경우 의 값(=2.049..)은 쉽게 계산이 불가능합니다.

이때, 도함수를 이용하여 근사값을 계산하는 방법을 이용하면, 계산을 용이하게 할 수 있습니다.

<도함수를 이용한 근사값 공식>

를 계산하기 위해 근사값 공식을 이용하면, f(4+0.2)=f(4)+f’(4)x0.2로 근사값을 계산할 수 있고, 로 계산이 가능합니다. (정확한 값인 2.049와 거의 동일) 따라서, 미분을 이용하면 완전히 정확하지는 않지만 계산과정이 간단하여 빠르게 근사값을 구할 수 있습니다.

이에 착안하여 해당 발명은 노이즈 추가의 대상이 되는 초기 데이터를

데이터 컴포넌트( RGB 픽셀값)+ 보조변수(픽셀값을 시간으로 미분한 것)로 구성하고, 이중에서 보조 변수에만 노이즈를 주는 방식을 이용합니다.

구체적으로, 특정 타임 스텝 t에서 노이즈를 뺀 데이터를 예측하는 것을 특정 시간에서 어떤 물체의 좌표를 예측하는 것이라고 가정하면, 기존의 데이터 자체(위치 좌표)에 노이즈를 주는 경우와 보조변수(속도=위치 좌표의 변화)에 노이즈를 주는 경우를 비교하여 다음과 같이 표현할 수 있습니다.

이와 같이, 기존의 디퓨전의 경우 데이터 자체에 노이즈를 추가하므로, 타임 스텝에 따른 데이터 경로가 복잡하여 특정 타임 스텝에서 노이즈를 뺀 데이터의 예측이 다소 어려운 점이 있었습니다.

반면, 보조 변수(데이터의 변화)에 노이즈를 추가하는 경우 데이터의 경로가 데이터 자체에 노이즈를 추가하는 경우보다 부드럽게 형성될 수 있고, 특정 타임 스텝에서 노이즈를 뺀 데이터의 예측이 보다 쉬워질 수 있습니다.

즉, 해당 방법은 데이터의 변화에 포함된 노이즈 예측을 수행함으로써 노이즈를 뺀 데이터 자체를 예측하는 계산을 근사할 수 있고, 이에 따라 계산과정이 기존의 경우보다 간단해져 결과물의 퀄리티가 유지되면서도 결과물이 생성되는 샘플링 속도가 빨라질 수 있습니다.

이와 관련해서, 해당 발명의 청구항은 다음과 같이 작성되어 있습니다.

A processor, comprising:

one or more circuits to cause the processor to perform operations comprising:

providing input to a generative neural network;

determining a set of auxiliary values corresponding to a set of data values of the input;

introducing noise values to the set of auxiliary values corresponding to the input to obtain noise data, the one or more noise values being introduced iteratively during a forward diffusion process;

removing one or more noise values of the noise values from the noise data to obtain a reconstructed input, the one or more noise values being removed iteratively during a reverse denoising diffusion process; and

adjusting network parameters for the score-based generative model based at least on differences between at least the input and the reconstructed input.

현재 공개된 청구항을 통해 특허의 권리범위를 분석한 결과는 다음과 같습니다.

먼저, 해당 특허는 (1) 입력 데이터 값 세트와 대응되는 보조 데이터 값 세트를 결정하는 구성 및 (2) 입력 데이터 자체가 아닌 보조 데이터 값 세트에 대해 디퓨전 프로세스(forward diffusion process 및 reverse denoising diffusion process)를 수행하는 구성에 대해 기술하고 있습니다.

우선, (1) 입력 데이터 값 세트와 대응되는 보조 데이터 값 세트를 결정하는 구성에 대해 살펴보면 청구항에서 입력 데이터와 보조 데이터를 이미지로 한정하지 않아 해당 구성은 여러 의미로 해석될 수 있습니다.

예를 들어, 최근 매우 주목받고 있는 스테이블 디퓨전(Stable diffusion)의 경우에도 입력 이미지 자체에 노이즈를 추가하는 것이 아닌 입력 이미지로부터 특징맵을 생성하고, 특징맵에 대해 노이즈를 추가하는 학습 방식으로 구성되어 있습니다.

따라서, 청구항의 표현들과 비교하면 스테이블 디퓨전(Stable diffusion)의 특징맵은 입력 데이터 값 세트와 대응되는 보조 데이터 값 세트의 구성과 특징맵에 대해 노이즈를 추가하는 학습 방식은 입력 데이터 자체가 아닌 보조 데이터 값 세트에 대해 디퓨전 프로세스(forward diffusion process 및 reverse denoising diffusion process)를 수행하는 구성과 매칭될 수 있을 것으로 보입니다.

만약 Nvidia 사의 해당 특허가 이대로 등록될 경우 입력 데이터를 다른 형식으로 가공하여 디퓨전 프로세스를 수행하는 방법 전반에 걸쳐 권리 주장을 할 수 있어 보이는 꽤나 강력한 특허로 보입니다. 따라서, 등록되는 경우 침해 이슈를 피하기 위해서는 해당 특허의 청구범위가 어떻게 확정되는지 계속 모니터링 할 필요가 있을 것입니다.

지금까지 디퓨전 모델과 관련하여 출원된 특허들을 분석하고, 이미지 도메인에 대한 중요한 샘플 특허에 대해 알아보았습니다. 현재 이미지 도메인 뿐만 아니라 비디오, 3D 도메인에서도 디퓨전 모델을 이용한 다양한 발명들이 등장하고 있는데요. 그렇다면, 이미지 도메인이 다른 도메인들에 비해 압도적으로 많은 이유는 무엇일까요?

다음 칼럼에서는 이미지와 다른 도메인과의 차이점은 무엇인지, 왜 이미지 도메인과 비교하여 많은 특허들이 등장하지 않았는지, 다른 도메인과 관련된 특허들은 어떤 것들이 등장했는지에 대한 내용을 여러분들과 공유하고자 합니다. 많은 관심 부탁드립니다.