人工智能、计算机软件

从专利视角看扩散模型(Diffusion Model)

DiffusionModel.png

Summary

分析与扩散模型相关的已申请的专利,并传递扩散模型相关技术的专利权利化动向及未来前景。

随着 Midjourney、DALL·E 2、Stable Diffusion 等生成模型的出现,任何人都能够轻松利用人工智能生成逼真的图像。与此同时,围绕生成模型的争议与思考也在呈现爆发式增长的趋势。在本篇文章中,我们将重点分析与生成模型中近来研究最为活跃的“扩散模型”相关的已申请的专利,并探讨扩散模型相关技术的专利权利化动向及未来前景。

 

 

扩散模型

 

扩散模型(Diffusion Model)是一种生成模型(Generative Model),它能够生成并不存在于原始数据中的、但与训练数据相似的数据。

扩散模型通过从完全噪声中逐步去除噪声,最终生成没有噪声、即我们所需的原始数据。这种逐步去除噪声的过程称为去噪过程(Denoising process)。那么,扩散模型是如何实现这一去噪过程的呢?

 

为了训练扩散模型,需要在一张原始图像上逐步加入预先设定的噪声,从而生成多张带有不同噪声的图像。例如,可以设想这样一种情况:将少量噪声逐步加入原始图像(X0),当加入次数达到1000次时(T=1000),原始图像就会演变为完全的噪声图像(XT)。

 

当向扩散模型展示逐步加噪的过程后,再让它学习与之相反的过程,即逐步去噪,那么训练好的模型就能够在输入噪声时生成去除部分噪声的图像。然后,将部分去噪后的图像再次输入模型,得到进一步去噪的图像,如此反复迭代,最终就可以得到一张完全无噪声的图像。

 

具体来说,可以由一张原始图像生成1000张训练图像,并向扩散模型提供两个信息:一是噪声加入的次数(t),二是加噪后的结果图像(Xt)。通过这种方式,扩散模型能够从加噪的条件概率分布(q)中学习去噪的条件概率分布(pθ),也就是说,学习加噪过程的逆过程。

 


<扩散模型的学习过程示意图 | 来源:论文>

 

可以基于上述扩散模型的基本结构进行拓展设计,例如:在去噪过程中引入额外文本信息的模型,或者不是对图像本身而是对特征图(Feature Map)进行去噪后再解码为原始图像的模型。

 

得益于2020年 6月发表的Denoising Diffusion Probabilistic Models (DDPM)和2021年 5月发表的Diffusion Models Beat GANs on Image Synthesis等论文的成果,扩散模型迅速崛起为生成模型的新潮流,并成为当前生成模型领域最活跃的研究课题之一。近年来,不仅在图像领域,在视频和语音领域中利用扩散模型解决问题的尝试也在不断增加。

 

在扩散模型受到如此高度关注的背景下,我们将进一步探讨利用扩散模型的技术在多大程度上以专利形式实现权利化,以及这些技术在专利制度下的保护情况。

 

扩散模型相关专利年度申请现状

 

为了了解与扩散模型相关的专利申请动向,PI事务所利用自主开发的检索公式,对人工智能基础专利分析数据库 KIPRIS Keywort 的数据进行了分析。通过该检索公式检出的约1500件专利,在去除无关“噪声”后,共判定出76件与扩散模型相关的专利。扩散模型被认为是生成模型领域最活跃的研究课题之一,因此读者可能会惊讶于相关专利数量竟然如此有限。

 

扩散模型的核心概念最早发表于2015年的论文 《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,但如前所述,扩散模型真正作为生成模型受到广泛关注则始于 2021 年以后。考虑到专利通常在申请后18个月才公开,可以推测实际上已经有大量与扩散模型相关的专利被申请,但其中相当一部分尚未公开。本所也已提交了与扩散模型相关的专利申请,但该专利目前同样处于未公开状态。

 

从目前已公开专利的申请日期来看,在这 76 件专利中,2021年之前仅有6件2021年申请了6件,2022年申请了35件,而2023年1月至6月期间又申请了29件。如果将尚未公开的专利数量考虑在内,可以认为扩散模型相关专利自2021年起出现了爆发式增长。结合2020年和2021年间前述几篇关键扩散模型论文的发表,可以解释为专利申请趋势与最新研究动向在一定程度上相吻合。

 

从各国的申请分布来看,这76件专利中,中国占68件,美国 6件,韩国1件,绝大多数专利均在中国申请。值得注意的是,中国申请的专利在申请日至公开日之间的周期普遍较短,说明不少中国申请人采取了在申请后尽早公开技术的战略。

 


<扩散模型相关专利年度申请现状>

 

 

按数据领域划分的扩散模型相关专利申请现状


接下来,我们将了解按数据领域划分的扩散模型相关专利的动向。

截至目前,按数据领域分类的已公开扩散模型相关专利的申请情况如下。

 

 

<按数据领域划分的扩散模型相关专利申请现状>

 

从图表可以看出,图像领域的专利有 46 件,而视频领域和音频领域分别仅公开了3件和6件,与3D领域相关的也仅公开了4件。由此可见,与视频、3D以及音频领域相比,图像领域的扩散模型相关专利数量呈现出压倒性优势。

 

由此可以看出,图像领域的专利申请与公开数量远远超过其他领域。那么,目前已公开的图像领域扩散模型相关专利究竟涵盖哪些内容呢?我们将通过举例进一步加以说明。

 

图像领域的扩散模型相关专利

在已公开的图像领域专利中,我们可以看到由 Nvidia 公司提交的、名称为 Diffusion-based generative modeling for synthetic data generation systems and applications 的美国公开专利 US2023-0109379。

 

一般而言,扩散模型在每一步都会去除噪声,从而逐步生成新的图像。如果在去噪时并不执行所有的去噪步骤(例如1000步),而是跳过部分步骤(采样,例如每次跳过 步,共200步),那么可以加快去噪过程的速度。但这样一来,与执行全部步骤生成的数据相比,结果的质量和多样性会有所下降。

 

该发明为解决上述问题,提出了一种利用近似值的方法,在保持与原始数据接近质量的同时提高计算速度。具体来说,它采用了基于导数(微分)来计算近似值的方式。

 

换句话说,传统的去噪过程中是对数据本身所包含的噪声进行预测,而该方法则通过预测数据变化(即数据的时间导数)中包含的噪声,从而近似计算去除噪声后的数据本身。这样一来,计算过程比原有方式更为简化,从而使采样速度得以提升

 

举例来说,如果将图表上的精确 y 值视为图像数据的像素值,当 x 为 1、4、9 等值时,y 值分别为 1、2、3,很容易计算。但当 x=4.2 时,的值 (=2.049…) 的精确计算就比较困难。

此时,若利用导数来计算近似值,则能够显著简化计算。

 


<利用导数的近似值公式>

 

为了计算 ,如果利用近似值公式,可以通过 f(4+0.2) = f(4) + f’(4) × 0.2计算近似值,可以通过计算,从而得到近似值 。(其结果与精确值 2.049 几乎一致) 因此,通过微分虽然无法得到完全精确的值,但计算过程更为简便,可以快速求得近似解。

 

基于这一思路,该发明将作为加噪对象的初始数据构成如下:
数据分量(RGB 像素值) + 辅助变量(像素值关于时间的导数),并仅对其中的辅助变量加入噪声。

 

具体而言,如果将某一时刻 t 去除噪声后的数据预测类比为在特定时间预测某个物体的坐标,那么可以比较以下两种情况:对原始数据本身(位置坐标)加噪;对辅助变量(速度 = 位置坐标的变化)加噪。并可以通过如下方式加以表达。

 


由此可见,在传统的扩散模型中,由于直接在数据本身上加入噪声,导致随时间步长变化的数据路径变得复杂,从而在特定时间步预测去噪后的数据时存在一定困难。

 

 


 

相反,如果在辅助变量(数据的变化)上加入噪声,相比于在数据本身上加噪,数据路径会更加平滑,从而在特定时间步预测去噪后的数据时会更为容易。

 

也就是说,该方法通过对数据变化中所包含的噪声进行预测,从而近似计算去噪后的数据本身。由此一来,计算过程比传统方法更为简化,在保持结果质量的同时,还能够加快生成结果的采样速度

 

与此相关,该发明的权利要求书如下所述。

 

A processor, comprising:

one or more circuits to cause the processor to perform operations comprising:

providing input to a generative neural network;


determining a set of auxiliary values corresponding to a set of data values of the input;


introducing noise values to the set of auxiliary values corresponding to the input to obtain noise data, the one or more noise values being introduced iteratively during a forward diffusion process;

 

removing one or more noise values of the noise values from the noise data to obtain a reconstructed input, the one or more noise values being removed iteratively during a reverse denoising diffusion process; and

 

adjusting network parameters for the score-based generative model based at least on differences between at least the input and the reconstructed input.

 

通过对目前已公开的权利要求进行分析,该专利的权利范围结果如下:

 

首先,该专利主要涉及两方面内容:(1) 确定与输入数据值集合对应的辅助数据值集合的构成;以及 (2) 并非对输入数据本身,而是对辅助数据值集合执行扩散过程(forward diffusion process 与 reverse denoising diffusion process)的构成

 

关于 (1) 确定与输入数据值集合对应的辅助数据值集合的构成这一点,可以看到权利要求并未将输入数据与辅助数据限定为图像,因此该构成具有多重解释的可能。

 

例如,在近期备受关注的 Stable Diffusion 中,其训练方式并不是直接对输入图像本身加噪,而是先由输入图像生成特征图再对特征图加

 

因此,与权利要求的表述相比较,可以认为 Stable Diffusion 的特征图对应于“与输入数据值集合对应的辅助数据值集合”,而其基于特征图加噪的训练方式则可以对应于并非对输入数据本身,而是对辅助数据值集合执行扩散过程(forward diffusion process 与 reverse denoising diffusion process)的构成。

 

由此可见,如果 Nvidia 公司的该专利顺利授权,那么其可能会对将输入数据转换为其他形式后再执行扩散过程的方法整体提出权利要求,从而成为一项相当强势的专利。因此,一旦该专利授权,为避免侵权问题,就有必要持续关注其权利要求的最终确立情况。

 

至此,我们已经分析了与扩散模型相关的已申请专利,并对图像领域中的一项重要示例专利进行了探讨。目前,不仅在图像领域,在视频和 3D 领域中也不断涌现出利用扩散模型的各类发明。那么,为什么在专利数量上图像领域远远超过其他领域呢?

 

在下一期专栏中,我们将与大家分享:图像与其他领域之间的差异究竟在哪里?为什么相比图像领域,其他领域的专利数量明显不足?以及目前在其他领域中已经出现了哪些与扩散模型相关的专利。敬请期待。

分析计算机软件专利知识产权教育报告趋势

"你有问题想咨询吗?"

"你有问题想咨询吗?"