人工智能、计算机软件

Amgen v. Sanofi最高法院判决评析二——人工智能相关发明说明书撰写要领

Amgen_Sanofi.png

Summary

在前一篇专栏中,我们了解了 Amgen 与 Sanofi 之间的最高法院判决内容以及人工智能相关发明的一般特性。在本篇专栏中,我们将探讨人工智能相关发明中针对不同的发明类别,为满足可实施性要件而应采取的说明书撰写方式。

数据预处理

 

数据预处理是指利用基于规则(rule-based)模型或基于人工智能的模型,将原始数据加工为训练数据。

 

在使用基于规则模型进行数据预处理的情况下,由于使用的是预先定义的规则,可以说其具有较高的可预测性。因此,可以认为,关于使用基于规则模型进行数据预处理的发明,其可实施性要件可参照美国 MPEP 进行类推而适当放宽。

 

在使用基于人工智能模型进行数据预处理的情况下,可以从两个方面来考虑。首先,是指关于使用基于人工智能模型进行数据预处理的发明在人工智能模型的训练方法或利用人工智能模型的应用方面并无特别特点的情形。在这种情况下,仅通过限定机器学习模型以及输入·输出数据,通常技术人员即可应用常规的机器学习方法予以实施,因此可认为其可实施性要件相对可以放宽。第二,是指关于使用基于人工智能模型进行数据预处理的发明在人工智能模型的训练方法或利用人工智能模型的应用方面具有特点的情形。

 

在这种情况下,应当根据后文所述的人工智能模型的训练方法类别或利用人工智能模型的应用类别,来判断其可实施性要件。

 

作为关于数据预处理发明的示例,我们以美国授权专利(US11816554)为例进行说明。

 

该专利涉及一种利用机器学习模块生成初始地面气象观测资料中的观测空白区域气象数据的方法。

 

在详细说明中,具体描述了基于初始地面气象观测资料(400)生成训练数据的数据预处理方法(参见‘554专利的图4)。在‘554 专利的图 4 中,附图标记410 表示不存在观测数据缺失的区域,附图标记420 表示观测数据缺失区域。

 

‘554专利的图4

 

下面看一下‘554专利的授权权利要求。

 

1. A computing device for generating weather observation data, the computing device comprising:

a memory including computer executable components; and

a processor executing following computer executable components stored in the memory,

wherein the computer executable components include:

an initial ground weather observation data recognition component recognizing observed initial ground weather observation data,

a weather data generation component trained to generate weather data of a gap region on the initial ground weather observation data by using a machine learning module,

wherein the weather data generation component is a component trained to generate non-missing data based on a plurality of non-missing ground weather observation data and artificial missing ground observation data generated by using the non-missing ground weather observation data by creating a missing region corresponding to the observation gap region,

wherein the non-missing ground weather observation data is generated by applying missing region weather estimation data generated by using relational data describing relationship between the satellite weather observation data for the missing region, and at least one of the land surface characteristic data or land surface type data, based on the initial ground weather observation data;

wherein the missing region is a region in which the weather data are not measured among the initial ground weather observation data.

 

‘554专利的授权权利要求1

 

授权权利要求1的授权要点在于关于生成作为训练数据非缺损地面气象观测资料人工缺损地面气象观测资料的方法。

 

具体而言,非缺损地面气象观测资料是通过重新构建初始地面气象观测数据中的观测数据缺损区域(420)而生成的,人工缺损地面气象观测资料则是通过在上述非缺损地面气象观测资料上人为地生成缺损区域而生成的构成。

 

在详细说明中公开有重新构建非缺损地面气象观测资料的方法,并对该重构方法分别说明了使用基于规则的模型的方法以及使用基于人工智能的模型的方法。

 

在该专利中,作为使用基于规则模型的数据预处理方法,记载了数据预处理的目的、预先定义的规则(例如基于统计技术的回归式)、观测数据及生成数据。由于关于使用基于规则模型进行数据预处理的发明具有较高的可预测性,因此仅凭这些记载即可满足可实施性要件。

 

此外,该专利还针对使用基于人工智能模型的数据预处理方法,记载了生成模型(generative model)或基于循环神经网络(RNN)的机器学习模型、各模型的输入·输出数据以及常规的机器学习方法。即使是关于使用人工智能模型的数据预处理的发明,在其训练方法或利用方面没有特别特征的情况下,也可以认为其可实施性要件相对可以放宽,因此,仅凭这些记载即可满足可实施性要件。

 

但是,如果关于数据预处理的发明在人工智能模型的训练方法或利用人工智能模型的应用方面具有特征,则应根据各类别来判断其可实施性要件。

 

综上所述,关于数据预处理的发明,其说明书的撰写方向取决于是否使用基于规则的模型、使用基于人工智能的模型,或者在使用基于人工智能的模型的情况下,发明的特征是什么,由此会导致为满足可实施性要件而应采取的说明书撰写方向有所不同。

 

 

人工智能模型的架构

 

关于模型架构的发明,是将模型的功能并非作为重点,而是将其内部架构予以权利化的发明。这里可以包括对模型内部层之间的相互作用、数据流动、处理方法、数据运算内容等的定义。作为关于模型架构发明的示例,我们来看下面谷歌关于Batch Normalization的授权专利。

 

<Batch Normalization专利图 1(谷歌US10417562B2)>

 

权利要求1

 

A neural network system implemented by one or more computers, the neural network system comprising:

a batch normalization layer between a first neural network layer and a second neural network layer, wherein the first neural network layer generates first layer outputs having a plurality of components, and wherein the batch normalization layer is configured to, during training of the neural network system on a batch of training examples:

receive a respective first layer output for each training example in the batch;

compute a plurality of normalization statistics for the batch from the first layer outputs;

normalize each component of each first layer output using the normalization statistics to generate a respective normalized layer output for each training example in the batch;

generate a respective batch normalization layer output for each of the training examples from the normalized layer outputs; and

provide the batch normalization layer output as an input to the second neural network layer.

 

 

上述谷歌授权专利是关于在神经网络中添加用于对训练数据的各个批次进行归一化的层,从而使得批归一化过程被加入到神经网络中的发明。查看谷歌授权专利的附图 1 和权利要求 1 项,可以确认神经网络的内部层以及各内部层各自的输入与输出数据被清晰地说明。通常技术人员仅凭查看谷歌授权专利的说明书,即可在无需经过反复试验的方法的情况下,设计神经网络的内部架构并实现执行批归一化的神经网络。

 

如此一来,由于关于人工智能模型内部架构的发明本身就已对结构进行了定义,因此通常技术人员可以仅凭查看说明书,即无需经过反复试验的方法而实施该发明。也就是说,可以认为关于模型架构的发明具有较高的可预测性,并且若类推美国MPEP,可认为其可实施性要件在一定程度上可以放宽。

 

 

人工智能模型的训练方法

 

当人工智能模型的训练方法具有技术核心时,需要对训练过程进行记载。可以认为,训练方法具有关于训练后的模型是否实际执行其目标功能的不可预测性。因此,在训练方法的情况下,需要具体记载训练过程,以使通常技术人员能够在不经过过度反复试验的情况下,根据说明书实施该训练方法。

 

训练过程可以包括关于训练类型、训练数据、模型架构、训练算法、评价方法等内容。例如,需要定义训练类型是监督学习、非监督学习,或者是强化学习,并且需要定义训练数据的输入数据与正确数据分别是什么。此外,还需要定义诸如损失函数等训练算法,以引导模型朝着最小化预测数据与正确数据误差的方向进行训练。

 

根据训练类型的不同,可能需要更多必需的记载要素。例如,对于关于强化学习的发明,需要记载并举例说明强化学习中必不可少的代理(agent)、环境(environment)、状态(state)、动作(action)、奖励(reward)各自的内容。

 

作为监督学习的示例,我们以美国授权专利(US12014493)为例进行说明。

 

在读取骨龄的方法中,有一种TW3(Tanner-Whitehouse3)方法,即通过拍摄手和腕部的照片进行确认。用于TW3读取的部位在临床上与骨龄读取具有高度相关性。‘493 专利的目的在于,在训练用于读取骨龄的分析模型时,使得该分析模型在训练过程中能够更加重视用于TW3读取的部位。

 

在详细说明中,将这些主要区域定义为注意力指导标签(attention guide label),并说明了骨龄读取模型的训练过程。具体而言,训练类型为监督学习,训练数据的输入数据是训练影像,而正确数据是注意力指导标签(参见 ‘493 专利的图 4)。

 

在‘493 专利的图 4 中,附图标记410 表示训练影像,附图标记430 表示注意力指导标签。

 

‘493 专利的图 4

 

下面看一下‘493 专利的授权权利要求。

 

1. A method for bone age assessment using a neural network performed by a computing device, the method comprising:

receiving an analysis image which is a target of bone age assessment; and assessing bone age of the target by inputting the analysis image into a bone age analysis model comprising one or more neural networks,

wherein the bone age analysis model, which is trained by supervised learning based on an attention guide label, comprises at least one attention module for analyzing a main region of the analysis image,

wherein the attention guide label comprises importance of each pixel obtained based on a distance between the each pixel included in a training image for training the bone age analysis model and the main region,

wherein the supervised learning is performed based on a comparison result of a spatial attention map generated regarding the training image using the bone age analysis model and the attention guide label corresponding to the training image,

wherein the supervised learning is performed based on:

calculating a loss function by using a label of each pixel included in the attention guide label as a ground truth value and using predicted importance of each pixel included in the spatial attention map as a prediction value, and updating weights of the attention module so the loss function is minimized.

 

‘493专利的授权权利要求1

 

授权权利要求 1 的授权要点在于关于利用预测数据正确数据进行监督学习的内容。

 

在详细说明中,分别定义了作为预测数据的空间注意力图(spatial attention map)以及作为正确数据的注意力指导标签(attention guide label)(参见 ‘493 专利的图3)。

 

‘493专利的图3

 

在‘493 专利的图3中,附图标记331表示空间注意力图。

 

此外,在详细说明中,具体定义了用于引导朝着最小化空间注意力图与注意力指导标签之间误差方向进行训练的损失函数(参见 ‘493 专利的数学式4)。

 

‘493专利的数学式4

 

附图标记‘493 专利的数学式4表示关于二元交叉熵损失函数的公式。

 

总而言之,由于训练方法可以认为具有不可预测的性质,因此需要具体记载训练过程,才能满足可实施性要件。

 

 

利用人工智能模型的应用(inference)

 

关于利用人工智能模型的发明,是指使用事先训练完成的公知人工智能模型的过程的发明。在Amgen判例中指出,在结构未被限定的情况下,需要记载能够执行特定功能的类别的一般特征。将此应用于人工智能相关发明时,即使是执行相同功能的人工智能模型,不同的人工智能模型在所使用的输入输出数据、训练方法、内部架构方面都可能不同。因此,在关于利用人工智能模型的发明中,可以将能够执行特定功能的各个人工智能模型视为一个类。

 

另一方面,与抗体种类无数的生物领域不同,在人工智能领域中,可使用的公知人工智能模型在某种程度上可以认为是有限的。此外,关于利用人工智能模型的发明,由于使用的是公知的人工智能模型,因此即便在说明书中仅记载将要使用的人工智能模型的一部分,也不一定会在可实施性要件上产生重大问题。那么,如果说明书以部分人工智能模型作为例子而获得授权之后,是否无论使用哪种人工智能模型都属于专利权利范围呢?

 

在 Amgen 判例中,争议点是以功能而非结构进行说明的抗体之权利要求是否应当被无效。专利在授权阶段的无效性判断与授权之后在侵权阶段的权利范围判断并不完全相同。但是,如果授权后的权利要求被认定无效,那么侵权行为自然也不会成立,因此可以认为,授权阶段的无效判断与授权之后侵权阶段的权利范围判断具有密切关系。由于专利对竞争者而言是一种主张技术侵权的攻击性手段,因此在侵权阶段的权利范围判断也可以说是非常重要的。

 

从这一观点来看,说明书不仅需要判断是否满足授权阶段的可实施性要件,还要考虑在侵权阶段是否能够主张其属于权利范围。

 

作为利用人工智能模型的发明示例,可以考虑一种用于生成公司标志的图像生成模型的发明。图像生成模型中可以使用多种人工智能模型。为了简便起见,我们以使用ViT的扩散模型和使用CNN的扩散模型为例。ViT 中将图像按token单位进行分词,并使用各token的嵌入向量作为输入。相反地,关于CNN,则是从图像中抽取特征图,并对特征图执行图像处理。

 

<基于ViT的扩散模型示例,出处:All are Worth Words: A ViT Backbone for Diffusion Models>

 

<基于CNN的扩散模型示例,出处:ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution>

 

例如,假设在关于利用图像生成模型输出公司标志的发明之说明书中,仅以图像被分词为token,并且token被转换为嵌入向量后作为输入的、基于ViT的图像生成模型作为示例进行记载。考虑到人工智能领域的技术水平,即使仅以ViT作为图像生成模型的示例,也不会在发明的可实施性要件本身产生问题,并且也可能获得授权。

 

但是,当竞争者利用基于CNN的图像生成模型来实施生成公司标志的发明时,竞争者可能会以说明书中未记载基于CNN的图像生成模型为理由,主张其并未侵犯专利。

 

因此,为了预防此类风险,说明书中应尽可能丰富地记载可使用的人工智能模型的示例,而这必然需要深厚的实务经验作为支撑。

 

 

PI事务所的专业性与优势

 

如上所述,PI事务所不仅对与人工智能相关的专利判例进行研究与分析,同时也对诸如 Amgen案件等可适用于人工智能相关发明的各个领域的判例进行研究与分析。

 

此外,PI事务所基于在人工智能领域的丰富经验,不仅在授权阶段,而且还考虑到侵权阶段来撰写说明书。PI事务所拥有能够覆盖人工智能相关发明全般内容的强大的人工智能模板,并且正根据人工智能领域的趋势持续地更新人工智能模板。

 

 

专利侵权案例研究专利计算机软件趋势分析

第一作者与共同作者

"你有问题想咨询吗?"

"你有问题想咨询吗?"