全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210413888.6 (22)申请日 2022.04.15 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 方文浩 苏磊 韩光耀 陈禹燊  (74)专利代理 机构 北京博浩百 睿知识产权代理 有限责任公司 1 1134 专利代理师 宫传芝 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/414(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06F 40/258(2020.01)G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/216(2020.01) (54)发明名称 一种标题抽取模 型的生成方法、 装置及电子 设备 (57)摘要 本公开提供了一种标题抽取模型的生成方 法、 装置及电子设备, 涉及数据处理领域, 尤其涉 及自然语言处理、 深度学习、 光学字符识别、 数据 处理等技术领域。 该方案为: 获取文档样本, 其 中, 文档样本中的文档为图像格式; 对文档样本 中的文档进行文本特征提取, 得到文本特征信 息, 并对文档进行图像特征提取, 得到图像特征 信息, 文本特征信息表征文档样 本所包含文本的 文本内容以及文本位置, 图像特征信息表征文档 样本所包含文档的文档布局; 基于文本特征信息 对文档样本进行标注, 得到标注后的文档样本; 对标注后的文档样本和图像特征信息进行特征 融合, 得到训练样本; 基于训练样本生成标题抽 取模型, 标题抽取模型用于提取待处理文档中的 标题。 权利要求书3页 说明书11页 附图5页 CN 114724166 A 2022.07.08 CN 114724166 A 1.一种标题抽取模型的生成方法, 包括: 获取文档样本, 其中, 所述文档样本中的文档为图像 格式; 对所述文档样本中的文档进行文本特征提取, 得到文本特征信息, 并对所述文档进行 图像特征提取, 得到图像特征信息, 其中, 所述文本特征信息表征了所述文档样本所包含文 本的文本内容以及文本位置, 所述图像特征信息表征了所述文档样本所包含文档的文档布 局; 基于所述文本特 征信息对所述文档样本进行 标注, 得到标注后的文档样本; 对所述标注后的文档样本和所述图像特 征信息进行 特征融合, 得到训练样本; 基于所述训练样本生成标题抽取模型, 其中, 所述标题抽取模型用于提取待处理文档 中的标题。 2.根据权利要求1所述的方法, 其中, 对所述文档样本中的文档进行文本特征提取, 得 到文本特 征信息, 包括: 对所述文档样本所包 含的文档进行切分处 理, 得到文档所对应的多个图像; 对所述多个图像中的至少一个图像进行文本识别, 得到第 一文档以及第 二文档, 其中, 所述第一文档至少包括: 以行为单位的第一文本内容以及至少一行文本在 对应文档中的第 一位置信息, 所述第二文档至少包括: 所述第一文本内容, 所述第一位置信息、 以字符为单 位的第二文本内容以及至少一个字符在 对应文档中的第二位置信息, 所述文本特征信息至 少包括所述第一文本内容、 所述第一 位置信息、 所述第二文本内容、 所述第二 位置信息 。 3.根据权利要求2所述的方法, 其中, 基于所述文本特征信息对所述文档样本进行标 注, 得到标注后的文档样本, 包括: 对所述第一文档进行 标题标注, 得到标注后的第一文档; 获取所述标注后的第一文档中的标题内容; 基于所述标题内容对所述第二文档进行 标题标注, 得到所述标注后的文档样本 。 4.根据权利要求3所述的方法, 其中, 对所述标注后的文档样本和所述图像特征信 息进 行特征融合, 得到训练样本, 包括: 基于所述标注后的文档样本确定文本序列特征信息, 其中, 所述文本序列特征信息至 少包括如下之一: 所述文档样本所对应的标签、 实体信息、 标签标识; 对所述文本序列特 征信息以及所述图像特 征信息进行 特征融合, 得到所述训练样本 。 5.根据权利要求4所述的方法, 其中, 基于所述标注后的文档样本确定文本序列特征信 息, 包括: 对所述标注后的文档样本进行 标签转换, 得到所述文档样本所对应的标签; 对所述标注后的第 一文档中的标题内容所对应的索引值以及所述标签进行封装, 得到 实体信息; 对所述标签进行 标识转换, 得到标签标识。 6.根据权利要求 4所述的方法, 所述方法还 包括: 对所述文本序列特征信 息进行语义实体识别, 确定所述文档样本所包含的至少一个标 题的标题等级。 7.根据权利要求5所述的方法, 所述方法还 包括: 获取目标文档所对应的标签标识 的标签长度, 其中, 所述目标文档为所述文档样本中权 利 要 求 书 1/3 页 2 CN 114724166 A 2的任意一个文档; 在所述标签长度大于预设长度时, 将所述目标文档切分为多个子文档。 8.根据权利要求1所述的方法, 所述方法还 包括: 获取所述待处 理文档; 基于所述标题抽取模型对所述待处理文档进行标题抽取, 得到所述待处理文档所对应 的至少一个标题; 确定所述至少一个标题在所述待处 理文档中的索引顺序以及标题等级; 基于所述索引顺序以及所述标题等级确定所述至少一个标题之间的从属关系, 生成多 叉树; 基于所述多叉树所对应的节点对所述至少一个标题的标题序号进行检测, 得到检测结 果, 其中, 所述检测结果表征 所述标题序号是否存在错 误或缺失。 9.一种标题抽取模型的生成装置, 包括: 获取模块, 用于获取文档样本, 其中, 所述文档样本中的文档为图像 格式; 特征提取模块, 用于对所述文档样本 中的文档进行文本特征提取, 得到文本特征信 息, 并对所述文档进行图像特征提取, 得到图像特征信息, 其中, 所述文本特征信息表征了所述 文档样本所包含文本的文本内容以及文本位置, 所述图像特征信息表征了所述文档样本所 包含文档的文档布局; 标注模块, 用于基于所述文本特征信息对所述文档样本进行标注, 得到标注后的文档 样本; 特征融合模块, 用于对所述标注后的文档样本和所述图像特征信息进行特征融合, 得 到训练样本; 模型生成模块, 用于基于所述训练样本生成标题抽取模型, 其中, 所述标题抽取模型用 于提取待处 理文档中的标题。 10.根据权利要求9所述的装置, 其中, 所述特 征提取模块包括: 第一切分模块, 用于对所述文档样本所包含的文档进行切分处理, 得到文档所对应的 多个图像; 文本识别模块, 用于对所述多个图像中的至少一个图像进行文本识别, 得到第一文档 以及第二文档, 其中, 所述第一文档至少包括: 以行为单位的第一文本内容以及至少一行文 本在对应文档中的第一位置信息, 所述第二文档至少包括: 所述第一文本内容, 所述第一位 置信息、 以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息, 所述文本特征信息至少包括所述第一文本内容、 所述第一位置信息、 所述第二文本内容、 所 述第二位置信息 。 11.根据权利要求10所述的装置, 其中, 所述标注模块包括: 第一标注模块, 用于对所述第一文档进行 标题标注, 得到标注后的第一文档; 第一获取模块, 用于获取 所述标注后的第一文档中的标题内容; 第二标注模块, 用于基于所述标题内容对所述第二文档进行标题标注, 得到所述标注 后的文档样本 。 12.根据权利要求1 1所述的装置, 其中, 所述特 征融合模块包括: 第一确定模块, 用于基于所述标注后的文档样本确定文本序列特征信 息, 其中, 所述文权 利 要 求 书 2/3 页 3 CN 114724166 A 3

.PDF文档 专利 一种标题抽取模型的生成方法、装置及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种标题抽取模型的生成方法、装置及电子设备 第 1 页 专利 一种标题抽取模型的生成方法、装置及电子设备 第 2 页 专利 一种标题抽取模型的生成方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。