全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210935527.8 (22)申请日 2022.08.05 (71)申请人 上海欧冶金融信息服 务股份有限公 司 地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人 王磊 汪志成 石赟 张顺晨  周纬 杨程旺  (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 专利代理师 朱春野 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/205(2020.01) G06F 40/232(2020.01)G06F 40/247(2020.01) G06F 40/30(2020.01) G06Q 50/18(2012.01) (54)发明名称 一种基于样本数据增强的篇章级合同抽取 方法及系统 (57)摘要 本申请提供一种基于样本数据增强的篇章 级合同抽取方法及系统, 包括: 获取待处理合同, 并判断所述待处理合同的文本类型; 然后基于所 述待处理合同的文本类型确定所述待处理合同 的文本抽取方式; 再按照确定的文本抽取方式对 所述待处理合同进行段落和章节信息抽取, 并根 据章节分级标志使用正则匹配进行划分, 将划分 后的章节信息分别加在所属的句子开头; 再然后 根据要素数据类型, 对划分后的章节信息进行数 据加强; 最后采用预设网络模型从完成数据增强 后的章节信息进行信息抽取, 并将预设网络模型 抽取的信息通过规则进行错误纠正、 相似匹配和 错位纠正, 输出最终结果。 本申请对于核心字段 可达到92.3%的准确率, 对于非核心字段可以实 现75.8%的准确率。 权利要求书2页 说明书9页 附图2页 CN 115422915 A 2022.12.02 CN 115422915 A 1.一种基于样本数据增强的篇章级合同抽取方法, 其特征在于, 所述方法包括以下步 骤: 获取待处 理合同, 并判断所述待处 理合同的文本类型; 基于所述待处 理合同的文本类型确定所述待处 理合同的文本抽取 方式; 按照确定的文本抽取方式对所述待处理合同进行段落和章节信 息抽取, 并根据章节分 级标志使用正则匹配进行划分, 将划分后的章节信息分别加在所属的句子开头; 根据要素 数据类型, 对划分后的章节信息进行 数据加强; 采用预设网络模型从完成数据增强后的章节信 息进行信 息抽取, 并将预设网络模型抽 取的信息通过规则进行错 误纠正、 相似匹配和错 位纠正, 输出最终结果。 2.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法, 其特征在于, 所述 待处理合同的文本类型包括: 图像格式的PDF文本类型、 可编辑格式的PDF文本类型和WORD 文本类型。 3.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法, 其特征在于, 对划 分后的章节信息进行数据加强的过程包括: 对划分后的章节信息进行同义词替换、 随机插 入、 随机替换与随机删除, 以对划分后的章节信息进行 数据扩充。 4.根据权利要求1至3中任一所述的基于样本数据增强的篇章级合同抽取方法, 其特征 在于, 采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括: 对合同文本信息每 个字符或词增 加起始位置和终止位置; 基于合同文本信 息进行建模, 得到批次大小*文本长度的二维矩阵, 并将字或词组成的 新短语结构进行扁平化处 理, 通过预训练模型 得到三维矩阵; 根据自注意力机制实现字和词之间的信息交 互, 得到合同文本的表征; 将得到的表征输入到条件随机场中, 抽取 出合同文本中的各个要素字段信息 。 5.根据权利要求4所述的基于样本数据增强的篇章级合同抽取方法, 其特征在于, 抽取 的要素字段信息包括以下至少之一: 合同名称、 甲方账户名、 乙方账户名、 合同税率、 金额币 种、 金额是否含税、 开始时间、 截止日期、 甲方银行账号、 乙方银行账号、 甲方税号、 乙方税 号、 甲方法人、 乙方法人。 6.一种基于样本数据增强的篇 章级合同抽取系统, 其特 征在于, 所述方法包括有: 数据采集模块, 用于获取待处 理合同, 并判断所述待处 理合同的文本类型; 抽取方式模块, 用于根据所述待处理合同的文本类型确定所述待处理合同的文本抽取 方式; 划分模块, 用于按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽 取, 并根据章节分级标志使用正则匹配进行划分, 将划分后的章节信息分别加在所属的句 子开头; 数据加强模块, 用于根据要素 数据类型, 对划分后的章节信息进行 数据加强; 信息抽取模块, 用于采用预设网络模型从完成数据增强后的章节信息进行信息抽取, 并将预设网络模型抽取 的信息通过规则进行错误纠正、 相似匹配和错位纠正, 输出最终结 果。 7.根据权利要求6所述的基于样本数据增强的篇章级合同抽取系统, 其特征在于, 所述 待处理合同的文本类型包括: 图像格式的PDF文本类型、 可编辑格式的PDF文本类型和WORD权 利 要 求 书 1/2 页 2 CN 115422915 A 2文本类型。 8.根据权利要求6所述的基于样本数据增强的篇章级合同抽取系统, 其特征在于, 对划 分后的章节信息进行数据加强的过程包括: 对划分后的章节信息进行同义词替换、 随机插 入、 随机替换与随机删除, 以对划分后的章节信息进行 数据扩充。 9.根据权利要求6至8中任一所述的基于样本数据增强的篇章级合同抽取系统, 其特征 在于, 采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括: 对合同文本信息每 个字符或词增 加起始位置和终止位置; 基于合同文本信 息进行建模, 得到批次大小*文本长度的二维矩阵, 并将字或词组成的 新短语结构进行扁平化处 理, 通过预训练模型 得到三维矩阵; 根据自注意力机制实现字和词之间的信息交 互, 得到合同文本的表征; 将得到的表征输入到条件随机场中, 抽取 出合同文本中的各个要素字段信息 。 10.根据权利要求9所述的基于样本数据增强的篇章级合同抽取系统, 其特征在于, 抽 取的要素字段信息包括以下至少之一: 合同名称、 甲方账户名、 乙方账户名、 合同税率、 金额 币种、 金额是否含税、 开始时间、 截止日期、 甲方银行账号、 乙方银行账号、 甲方税号、 乙方税 号、 甲方法人、 乙方法人。权 利 要 求 书 2/2 页 3 CN 115422915 A 3

PDF文档 专利 一种基于样本数据增强的篇章级合同抽取方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于样本数据增强的篇章级合同抽取方法及系统 第 1 页 专利 一种基于样本数据增强的篇章级合同抽取方法及系统 第 2 页 专利 一种基于样本数据增强的篇章级合同抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。