文/集佳知识产权代理有限公司 朱静
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或者技能,重新组织已有的知识结构使之不断改善自身的性能。简单的讲,机器学习是一门人工智能的学科,其主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
目前,机器学习已经在众多领域得到应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、证券市场分析、DNA序列预测以及机器人运用。随着机器学习在各个领域的快速发展,众多企业逐渐投入研发机器学习技术,从而使得几年来涉及机器学习技术的专利越来越多,于此同时,企业对机器学习的专利申请需求也越来越多,因此,如何撰写机器学习技术的专利是目前专利从业人员所关注的重点之一。基于此,笔者根据撰写经验谈一谈涉及机器学习技术的专利申请文件的撰写策略。
机器学习在技术实现时,大致分为模型训练阶段和模型应用阶段,所谓模型训练阶段是指利用机器学习算法对样本数据进行学习以训练模型的阶段,所谓模型应用阶段是指利用训练好的模型对新数据进行预测的阶段。而在实际技术研发过程中,有时会针对模型训练阶段产生相关专利,而有时会针对模型应用阶段产生相关专利,当然,大部分时候是在两个阶段都有相关的改进点,即同时产生相关专利。
基于机器学习技术本身的特点,笔者根据自身撰写经验总结出以下撰写策略:
(1)、在实际操作中,先根据交底书明确技术改进点属于哪个阶段,方案仅涉及训练阶段的改进点,还是仅涉及到应用阶段的改进点,还是两者皆有。根据方案的改进点所属的具体阶段部署对应的权项。下面针对不同的情况分别进行说明。
一种情况是,方案仅在模型训练阶段存在改进点,例如,在模型训练阶段涉及到原始数据采集、样本数据挖掘、特征提取、模型内部结构变化、模型参数更新算法以及模型组合训练等一个或者多个方面,方案若在这些方面作了改进,针对这种情况,则仅部署模型的训练方法以及产品等相关权项。
另一种情况是,方案仅在模型应用阶段存在改进点,例如,在模型应用阶段一般会涉及到数据采集、特征提取、模型内部结构变化、模型输出结果应用以及模型组合应用等一个或者多个方面,方案若在这些方面作了改进,则仅部署模型的应用方法以及产品等相关权项。
还有一种情况是,方案既涉及模型训练阶段又涉及模型应用阶段,例如:方案涉及到模型内部结构的改进,则既需要部署模型训练的方法还需要部署模型应用的方法以及相关产品等权项。
(2)、在确定应部署的权项主题之后,再确定具体改进点所属的特定环节,根据特定环节定位出合理的权项范围,而无需站在模型训练过程或者模型应用过程的全局角度进行定位,以避免丧失权利。下面进行举例说明。
一种情况是,有些方案仅仅涉及训练阶段的某一个独立环节的改进,则可以将方案定位到具体的独立环节,而无需站在整个训练过程进行全局定位,这样能够确定出合理的权项范围。
例如:有些方案仅涉及模型训练阶段中样本数据采集方面的改进,则可以将权项范围定位在样本数据采集的范围即可,具体在撰写时,方法权要的步骤描述出如何采集样本数据以完整表征改进点即可,可以跳出交底书中限定的特定模型下的训练场景,基于此,也可以对方案进行场景性扩展,以及训练过程中其他环节的扩展。但在从权中可以通过名词限定或者增加方法步骤的方式进一步地保护样本数据应用于具体模型训练的方案,以保证交底书中提供的最佳场景应用的方案。例如,在从权中采用功能性限定,如所述样本数据用于某某模型训练,或者利用所述样本数据对某某模型进行训练。
另一种情况是,有些方案仅仅涉及训练阶段中损失函数部分的改进,而此部分也无法作为独立的方案,基于此,可以根据该改进点所处的具体环节,或者与其直接相关的环节,确定权项合理的范围;在机器学习中损失函数部分会涉及构建目标函数以及利用目标函数进行模型参数优化环节,基于此,可以将权项范围定位到这两个环节相结合所组成的范围,而无需站在训练过程全局角度进行定位,也不能定位到函数本身的范围,即不能盲目缩小范围至丧失技术方案本身所需的素材导致不属于保护客体,也不能局限于整个实际方案实现的场景,这样才能够确定出合理的权项范围。
(3)、在实际操作中,大部分涉及机器学习技术的方案会同时涉及到模型训练以及模型应用两个阶段的改进,针对此情况,考虑到实际维权阶段的相关问题,建议先从模型应用角度部署相关权项,再从模型训练角度部署相关权项。这主要是因为,一方面模型应用相比模型训练更容易取证,由于模型训练一般仅在后台完成,而模型应用则有可能由前台完成,供用户使用。因此,模型应用相比模型训练更容易取证。另一方面,模型应用的市场价值也远远大于模型训练的市场价值,例如,有时模型训练可能一次性完成,而一旦模型在训练好之后是会被重复应用,而且很容易被移植应用;在实际应用中,有的企业主要负责模型算法研究进行模型训练,从而为其他多家企业提供训练好的模型,则其他多家企业会同时应用这一模型实现其产品功能。也就是说,模型应用再现的可能性比模型训练再现的可能性要高的多。因此,建议优先考虑构建模型应用的权利要求,再考虑构建模型训练的权利要求。
另外,还考虑到专利申请经费或者维权等各种问题,在实际撰写过程中,也可以将模型训练过程作为模型应用权项的从属权项进行部署。例如,权1是一种模型应用方法,而权2引用权1,进一步增加关于如何训练权1中的模型的方案。
(4)、在实际操作中,也会遇到有些案件虽然提及到机器学习技术,但其仅是利用了已有的模型进行相应处理,对模型训练以及模型应用均为作改进,因此,针对这种类型的案件,在撰写时,可以不写模型的训练,也无需关注模型的具体网络结构,可以把模型当作能够实现特定数据处理的,具有一定输入输出映射功能的黑盒处理即可,无需浪费过多笔墨,而把重点放在方案的实际改进点。
(5)、在实际操作中,考虑到机器学习技术本身技术复杂性较高,为了提高专利申请文件的可读性,可以针对方案本身的技术特点在说明书布局以及说明书附图特殊处理,例如,针对模型训练和模型应用具有改进的方案,虽然在权利要求中先部署的模型应用后部署的模型训练,但在说明书中可以先部署模型训练的相关实施例,再部署模型应用的相关实施例,以方便企业审核人、审查员、法官等在处理案件时更容易理解方案的实现。
另外,在针对模型网络结构本身有改进的方案,由于模型的网络结构的改进本质上是对数据处理逻辑的改进,而数据处理逻辑从数据层面来讲,往往是网络参数矩阵以及其含义的变化,这种变化是很难通过简单的绘图来表征,对此,可以将模型内部网络结构功能模块化,根据其对数据处理逻辑,确定每个模块的输入输出,进而通过级联式方式绘制出由具有特定功能的模块所组成的模型,尤其是在绘图中,可以有效结合实际研发过程中的中间结果图以及实际应用中产生的效果图,例如,模型用于对图像进行处理所产生的效果图,这样,能够通过图文结合的方式更清楚地表征方案的核心改进点和有益效果,也能够方便企业审核人、审查员、法官等在处理案件时更容易理解方案的具体情况。
以上主要是笔者根据个人经验,说明了撰写涉及机器学习技术的专利申请文件时需要考虑的几点因素,当然,在撰写专利申请文件时也需要兼顾考虑其他因素。由于,机器学习本身涉及的知识非常广阔,该技术还在不断的发展更新中,笔者也仅能够了解其中一角,如有纰漏之处还请批评指正。