全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210983739.3 (22)申请日 2022.08.17 (65)同一申请的已公布的文献号 申请公布号 CN 115048906 A (43)申请公布日 2022.09.13 (73)专利权人 北京汉仪创新科技股份有限公司 地址 100089 北京市海淀区翠微路2号院五 区2号楼二层201 专利权人 上海驿创信息技 术有限公司 (72)发明人 张啸宇  (74)专利代理 机构 上海众象合 一知识产权代理 有限公司 31395 专利代理师 翟国建 (51)Int.Cl. G06F 40/109(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06V 30/148(2022.01) G06F 16/22(2019.01) (56)对比文件 CN 112699234 A,2021.04.23 审查员 李咏梅 (54)发明名称 一种文档结构化方法、 装置、 电子设备和存 储介质 (57)摘要 本公开涉及一种文档结构化方法、 装置、 电 子设备和存储介质, 所述方法包括如下步骤: 通 过利用大规模阅读理解任务知识进行预微调, 并 将其阅读理解能力迁移到文档结构化任务上, 从 待结构化的多模态或纯文本中提取结构化的键 值对信息, 设定每个键对应的文本问题, 对待结 构化的文档图片进行识别, 将识别的文字内容拼 接为篇章文本, 通过数据增强的方式将文本问题 集和篇章文本组成多片段阅读理解数据集, 对数 据集进行训练, 抽取与每个文本问题对应的答案 片段, 输出所有的问题 ‑答案对作为最终的结构 化键值对信息。 本公开能够明显提升任务效果, 具有一定的0样本推理能力; 对于排版异常和键 值对错位的情况不敏感,鲁棒 性较好。 权利要求书2页 说明书6页 附图3页 CN 115048906 B 2022.11.04 CN 115048906 B 1.一种文档结构化方法, 其特 征在于, 包括如下步骤: 在中文语言模型上进行继续预训练, 获得接近文档结构化任务的表示; 在所述中文语 言模型上对大规模中文阅读理解数据集进行 预微调; 确定需要从文档图片中抽取的键值对信息, 设定每个键对应的文本问题, 将获得的所 述文本问题组成问题集 合; 对待结构化的文档图片进行文字识别, 获取文档图片中所有的文本 内容和布局排版信 息, 根据所述布局排版信息, 将获取 的所有文本内容拼接为篇章文本, 其中, 所述布局 排版 信息包括 坐标信息; 根据所述篇章文本和问题集合构建单片段阅读理解数据集; 将单片段阅读理解数据集 增强为多片段阅读理解数据集; 对预微调后的模型继续训练, 将答案的起止点损失和序列标注损失作为约束进行训 练, 并引入对抗训练和梯度中心化, 在得到损失之后反向传播, 并在正常梯度的基础上, 累 加对抗训练的梯度; 将篇章文本和对应的问题输入到训练后的模型进行推理, 获取与问题对应的所有答案 片段; 将答案片段排序后处 理, 输出所有的问题 ‑答案对作为 最终的键值对结构化信息; 其中, 所述将单片段阅读理解数据集增强为多片段阅读理解数据集包括以下步骤: 随机组合同一个样本的多个单片段问答, 构 成增强的多片段问答样本, 组合方式包括: 判断共同主语, 随机连接词, 句式变换和随机负 样本; 将单片段阅读理解数据集、 增强的多片段问答样本和随机负样本构 成多片段阅读理解 数据集。 2.如权利要求1所述的文档结构化方法, 其特征在于, 所述判断共同主语是指对同一个 文档图片的不同的问题判断是否包含共同主语, 若包含则 在构造增强的问题时合并包含共 同主语的问题并省略后面的共同主语; 所述随机连接词是指将常见的并列连词作为候选集合, 在构造增强的问题时随机选择 并列连词来将两个问题合并为 一个联合问题; 所述句式变换时指在问句中加入不影响语义的常见 前后缀或者口语化表达; 所述随机负样本是指 从拼接的篇章文本 中随机删除一个问题对应的答案片段, 使该问 题变为无答案负 样本。 3.如权利要求1所述的文档结构化方法, 其特征在于, 所述将答案的起止点损失和序列 标注损失作为约束进 行训练,具体是指将多个答案片段的起止点坐标 交叉熵损失以及整个 片段的序列标注交叉熵损失作为约束进行联合训练; 所述对抗训练通过扰动输入嵌入的方 式, 在模型前向时传入扰动, 得到损失之后反向传播, 并在正常的梯度的基础上, 累加对抗 训练的梯度。 4.如权利要求1所述的文档结构化方法, 其特征在于, 所述问题和篇章采用拼接方式连 接, 以预测所有答案在篇章中的起止点坐标作为训练目标, 训练模型采用对所述大规模中 文阅读理解数据集进行 预微调后的模型, 训练指标为F1和E M。 5.如权利要求1所述的文档结构化方法, 其特征在于, 所述将篇章文本和对应的问题输 入到训练后的模型进行推理, 获取与问题对应的所有答案片段 具体包括:权 利 要 求 书 1/2 页 2 CN 115048906 B 2将图片的文本信 息按照和训练阶段同样的方式拼接成篇章, 然后和问题一起以拼接的 方式送入训练后的模型进行推理, 模型 预测篇章中每个位置作为 答案起止点的概 率。 6.如权利要求1所述的文档结构化方法, 其特征在于, 所述将答案片段排序后处理, 输 出所有的问题 ‑答案对作为 最终的键值对结构化信息具体包括: 对于满足条件的答案片段进行排序后处理, 并区分有答案和 空答案两种情况, 得到最 终的答案, 输出 所有的问题 ‑答案对作为 最终的键值对结构化信息 。 7.一种文档结构化装置, 其特 征在于, 包括: 继续预训练模块, 用于在中文语言模型上进行继续预训练, 获得接近文档结构化任务 的表示; 在所述中文语言模型 上对大规模中文阅读理解数据集进行 预微调; 问题集合生成模块, 用于确定需要从文档图片中抽取的键值对信息, 设定每个键对应 的文本问题, 将获得的所述文本问题组成问题集 合; 篇章文本生成模块, 用于对待结构化的文档图片进行文字识别, 获取文档图片中所有 的文本内容和布局 排版信息, 根据所述布局 排版信息, 将获取的所有文本内容拼接为篇章 文本, 其中, 所述布局排版信息包括 坐标信息; 多片段阅读理解数据集生成模块, 用于根据 所述篇章文本和问题集合构建单片段阅读 理解数据集; 将单片段阅读理解数据集增强为多片段阅读理解数据集; 其中, 所述将单片段 阅读理解数据集增强为多片段阅读理解数据集包括: 随机组合同一个样本的多个单片段问答, 构 成增强的多片段问答样本, 组合方式包括: 判断共同主语, 随机连接词, 句式变换和随机负样本; 将单片段阅读理解数据集、 增强的多 片段问答样本和随机负 样本构成多片段阅读理解数据集; 联合训练模块, 用于对预微调后的模型继续训练, 将答案的起止点损 失和序列标注损 失作为约束进 行训练, 并引入对抗训练和梯度中心 化, 在得到损失之后反向传播, 并在正常 梯度的基础上, 累加对抗训练的梯度; 推理模块, 所述推理模块用于将篇章文本和对应的问题输入到训练后的模型进行推 理, 获取与问题对应的所有答案片段; 输出模块, 所述输出模块用于将答案片段排序后处理, 输出所有的问题 ‑答案对作为最 终的键值对结构化信息 。 8.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的 文档结构化方法。 9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实现 权利要求1至 6任一项所述的文档结构化方法的步骤。权 利 要 求 书 2/2 页 3 CN 115048906 B 3

PDF文档 专利 一种文档结构化方法、装置、电子设备和存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档结构化方法、装置、电子设备和存储介质 第 1 页 专利 一种文档结构化方法、装置、电子设备和存储介质 第 2 页 专利 一种文档结构化方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。