全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211343139.7 (22)申请日 2022.10.31 (71)申请人 成都飞机工业 (集团) 有限责任公司 地址 610092 四川省成 都市青羊区黄田坝 纬一路88号 (72)发明人 林海峰 赵炜煜 陈琛 王尚超  刘翔锋 孙健庭 罗佳丽 刘志波  邱权 雷霭荻 张历记 范东皖  谭丽娟  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 杨子亮 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/38(2019.01)G06K 9/62(2022.01) (54)发明名称 一种非结构化文档提取方法、 装置、 设备及 介质 (57)摘要 本申请公开了一种非结构化文档提取方法、 装置、 设备及介质, 涉及文档提取技术领域, 该方 法接收输入的目标文档信息, 所述目标文档信息 包括目标文档类型信息、 目标文档数据单位信息 和目标文档名称信息; 基于所述目标文档类型信 息, 从文档元胞矩阵模型中的若干文档元胞矩阵 中筛选出与所述目标文档类型信息匹配的若干 目标文档元胞列矩阵; 基于所述目标文档数据单 位信息、 所述目标文档名称信息以及多个所述目 标文档元胞矩阵, 获得各目标文档元胞矩阵对应 的文档提取分数值; 基于各目标文档元胞矩阵对 应的文档提取分数值, 提取所述目标文档。 通过 上述技术方案可以更快速准确的提取到目标文 档。 权利要求书2页 说明书8页 附图3页 CN 115391516 A 2022.11.25 CN 115391516 A 1.一种非结构化文档提取 方法, 其特 征在于, 所述方法包括: 接收输入的目标文档信息, 所述目标文档信息包括目标文档类型信息、 目标文档数据 单位信息和目标文档名称信息; 基于所述目标文档类型信 息, 从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与 所述目标文档类型信息匹配的若干目标文档元胞列矩阵; 其中, 所述文档元胞矩阵模型中 包括若干文档对应的若干文档元胞矩阵, 每个所述文档元胞矩阵包括对应文档的文档数据 单位信息、 文档名称信息和文档类型信息; 基于所述目标文档数据 单位信息、 所述目标文档名称信 息以及多个所述目标文档元胞 矩阵, 获得各目标文档元胞矩阵对应的文档提取分数值; 其中, 所述文档提取分数值用于表 征各目标文档元 胞矩阵与所述目标文档 信息的相似度; 基于各目标文档元 胞矩阵对应的文档提取分数值, 提取目标文档。 2.如权利要求1所述的非结构化文档提取方法, 其特征在于, 所述基于各目标文档元胞 矩阵对应的文档提取分数值, 提取目标文档, 包括: 对所述文档提取分数值由高到低的顺序排序; 提取目标文档; 所述目标文档为所述文档提取分数值 排在第一 位对应的文档。 3.如权利要求1所述的非结构化文档提取方法, 其特征在于, 所述基于所述目标文档数 据单位信息、 所述 目标文档名称信息以及多个所述 目标文档元胞矩阵, 获得各目标文档元 胞矩阵对应的文档提取分数值, 包括: 其中, 为文档数据单位信息在文档中存在的种类数, 为输入的目标文档数据单位 信息的种类数, 为输入目标文档名称信息与 文档元胞矩阵模型中文档名称信息的字符交 集, 为输入的目标文档名称信息, s表示文档提取分数值, 表示目标文档数据单位信息 的权重, m表示目标文档类型信息是否从文档元胞矩阵模型中的若干文档元胞矩阵中筛选 出与目标文档类型信息匹配的目标文档元 胞列矩阵的参数, 且m= 0或1。 4.如权利要求1所述的非结构化文档提取方法, 其特征在于, 在所述接收输入的目标文 档信息的步骤之前, 还 包括: 提取若干文档的文档特征数据, 其中, 所述文档特征数据中包括文档数据单位信息和 文档名称; 基于所述文档特 征数据, 构建所述文档元 胞矩阵模型。 5.如权利要求4所述的非结构化文档提取方法, 其特征在于, 所述基于所述文档特征数 据, 构建所述文档元 胞矩阵模型, 包括: 基于所述文档数据单位信息, 构建文档元 胞组; 对所述文档名称进行拆分, 以获得文档名称信息和文档类型信息; 根据所述文档名称信息和文档类型信息, 构建名称元 胞组; 基于所述文档元 胞组和所述名称元 胞组, 构建所述文档元 胞矩阵模型。 6.如权利要求5所述的非结构化文档提取方法, 其特征在于, 所述基于所述文档元胞组 和所述名称元 胞组, 构建所述文档元 胞矩阵模型, 包括:权 利 要 求 书 1/2 页 2 CN 115391516 A 2将所述文档元胞组和所述名称元胞组组合, 以获得二维元胞矩阵, 其中, 所述二维元胞 矩阵中包括所述文档数据单位信息、 所述文档名称信息和所述文档类型信息间的映射关 系; 基于所述 二维元胞矩阵, 构建所述文档元 胞矩阵模型。 7.如权利要求1所述的非结构化文档提取方法, 其特征在于, 在所述接收输入的目标文 档信息的步骤之后, 还 包括: 若未从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息 匹配的若干目标文档元 胞列矩阵, 则更 换所述目标文档类型信息; 基于更换的所述目标文档类型信 息, 从文档元胞矩阵模型中的若干文档元胞矩阵中筛 选出与所述目标文档类型信息匹配的若干目标文档元 胞列矩阵。 8.一种非结构化文档提取装置, 其特 征在于, 所述装置包括: 接收模块, 用于接收输入的目标文档信 息, 所述目标文档信 息包括目标文档类型信 息、 目标文档数据单位信息和目标文档名称信息; 筛选模块, 用于基于所述目标文档类型信息, 从文档元胞矩阵模型中的若干文档元胞 矩阵中筛选出与所述 目标文档类型信息匹配的若干目标文档元胞列矩阵; 其中, 所述文档 元胞矩阵模型中包括若干文档对应的若干文档元胞矩阵, 每个所述文档元胞矩阵包括对应 文档的文档数据单位信息、 文档名称信息和文档类型信息; 获得模块, 用于基于所述目标文档数据单位信息、 所述目标文档名称信息以及多个所 述目标文档元胞矩阵, 获得各目标文档元胞矩阵对应的文档提取分数值; 其中, 所述文档提 取分数值用于表征 各目标文档元 胞矩阵与所述目标文档 信息的相似度; 提取模块, 用于基于各目标文档元 胞矩阵对应的文档提取分数值, 提取目标文档。 9.一种计算机设备, 其特征在于, 该计算机设备包括存储器和处理器, 所述存储器 中存 储有计算机程序, 所述处理器执行所述计算机程序, 实现如权利要求 1‑7中任一项 所述的方 法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 处理器执行所述计算机程序, 实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115391516 A 3

.PDF文档 专利 一种非结构化文档提取方法、装置、设备及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种非结构化文档提取方法、装置、设备及介质 第 1 页 专利 一种非结构化文档提取方法、装置、设备及介质 第 2 页 专利 一种非结构化文档提取方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:42:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。