专利一种基于样本数据增强的篇章级合同抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210935527.8 (22)申请日 2022.08.05 (71)申请人上海欧冶金融信息服务股份有限公司地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人王磊　汪志成　石赟　张顺晨　周纬　杨程旺　 (74)专利代理机构北京卫智易创专利代理事务所(普通合伙) 16015 专利代理师朱春野 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/205(2020.01) G06F 40/232(2020.01)G06F 40/247(2020.01) G06F 40/30(2020.01) G06Q 50/18(2012.01) (54)发明名称一种基于样本数据增强的篇章级合同抽取方法及系统 (57)摘要本申请提供一种基于样本数据增强的篇章级合同抽取方法及系统，包括：获取待处理合同，并判断所述待处理合同的文本类型；然后基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式；再按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取，并根据章节分级标志使用正则匹配进行划分，将划分后的章节信息分别加在所属的句子开头；再然后根据要素数据类型，对划分后的章节信息进行数据加强；最后采用预设网络模型从完成数据增强后的章节信息进行信息抽取，并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正，输出最终结果。本申请对于核心字段可达到92.3％的准确率，对于非核心字段可以实现75.8％的准确率。权利要求书2页说明书9页附图2页 CN 115422915 A 2022.12.02 CN 115422915 A 1.一种基于样本数据增强的篇章级合同抽取方法，其特征在于，所述方法包括以下步骤：获取待处理合同，并判断所述待处理合同的文本类型；基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式；按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取，并根据章节分级标志使用正则匹配进行划分，将划分后的章节信息分别加在所属的句子开头；根据要素数据类型，对划分后的章节信息进行数据加强；采用预设网络模型从完成数据增强后的章节信息进行信息抽取，并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正，输出最终结果。 2.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，所述待处理合同的文本类型包括：图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD 文本类型。 3.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，对划分后的章节信息进行数据加强的过程包括：对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除，以对划分后的章节信息进行数据扩充。 4.根据权利要求1至3中任一所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括：对合同文本信息每个字符或词增加起始位置和终止位置；基于合同文本信息进行建模，得到批次大小*文本长度的二维矩阵，并将字或词组成的新短语结构进行扁平化处理，通过预训练模型得到三维矩阵；根据自注意力机制实现字和词之间的信息交互，得到合同文本的表征；将得到的表征输入到条件随机场中，抽取出合同文本中的各个要素字段信息。 5.根据权利要求4所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，抽取的要素字段信息包括以下至少之一：合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。 6.一种基于样本数据增强的篇章级合同抽取系统，其特征在于，所述方法包括有：数据采集模块，用于获取待处理合同，并判断所述待处理合同的文本类型；抽取方式模块，用于根据所述待处理合同的文本类型确定所述待处理合同的文本抽取方式；划分模块，用于按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取，并根据章节分级标志使用正则匹配进行划分，将划分后的章节信息分别加在所属的句子开头；数据加强模块，用于根据要素数据类型，对划分后的章节信息进行数据加强；信息抽取模块，用于采用预设网络模型从完成数据增强后的章节信息进行信息抽取，并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正，输出最终结果。 7.根据权利要求6所述的基于样本数据增强的篇章级合同抽取系统，其特征在于，所述待处理合同的文本类型包括：图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD权　利　要　求　书 1/2 页 2 CN 115422915 A 2文本类型。 8.根据权利要求6所述的基于样本数据增强的篇章级合同抽取系统，其特征在于，对划分后的章节信息进行数据加强的过程包括：对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除，以对划分后的章节信息进行数据扩充。 9.根据权利要求6至8中任一所述的基于样本数据增强的篇章级合同抽取系统，其特征在于，采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括：对合同文本信息每个字符或词增加起始位置和终止位置；基于合同文本信息进行建模，得到批次大小*文本长度的二维矩阵，并将字或词组成的新短语结构进行扁平化处理，通过预训练模型得到三维矩阵；根据自注意力机制实现字和词之间的信息交互，得到合同文本的表征；将得到的表征输入到条件随机场中，抽取出合同文本中的各个要素字段信息。 10.根据权利要求9所述的基于样本数据增强的篇章级合同抽取系统，其特征在于，抽取的要素字段信息包括以下至少之一：合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。权　利　要　求　书 2/2 页 3 CN 115422915 A 3

专利 一种基于样本数据增强的篇章级合同抽取方法及系统

专利一种基于样本数据增强的篇章级合同抽取方法及系统