专利一种标题抽取模型的生成方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210413888.6 (22)申请日 2022.04.15 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人方文浩　苏磊　韩光耀　陈禹燊　 (74)专利代理机构北京博浩百睿知识产权代理有限责任公司 1 1134 专利代理师宫传芝 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/414(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06F 40/258(2020.01)G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/216(2020.01) (54)发明名称一种标题抽取模型的生成方法、装置及电子设备 (57)摘要本公开提供了一种标题抽取模型的生成方法、装置及电子设备，涉及数据处理领域，尤其涉及自然语言处理、深度学习、光学字符识别、数据处理等技术领域。该方案为：获取文档样本，其中，文档样本中的文档为图像格式；对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息，文本特征信息表征文档样本所包含文本的文本内容以及文本位置，图像特征信息表征文档样本所包含文档的文档布局；基于文本特征信息对文档样本进行标注，得到标注后的文档样本；对标注后的文档样本和图像特征信息进行特征融合，得到训练样本；基于训练样本生成标题抽取模型，标题抽取模型用于提取待处理文档中的标题。权利要求书3页说明书11页附图5页 CN 114724166 A 2022.07.08 CN 114724166 A 1.一种标题抽取模型的生成方法，包括：获取文档样本，其中，所述文档样本中的文档为图像格式；对所述文档样本中的文档进行文本特征提取，得到文本特征信息，并对所述文档进行图像特征提取，得到图像特征信息，其中，所述文本特征信息表征了所述文档样本所包含文本的文本内容以及文本位置，所述图像特征信息表征了所述文档样本所包含文档的文档布局；基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本；对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本；基于所述训练样本生成标题抽取模型，其中，所述标题抽取模型用于提取待处理文档中的标题。 2.根据权利要求1所述的方法，其中，对所述文档样本中的文档进行文本特征提取，得到文本特征信息，包括：对所述文档样本所包含的文档进行切分处理，得到文档所对应的多个图像；对所述多个图像中的至少一个图像进行文本识别，得到第一文档以及第二文档，其中，所述第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，所述第二文档至少包括：所述第一文本内容，所述第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，所述文本特征信息至少包括所述第一文本内容、所述第一位置信息、所述第二文本内容、所述第二位置信息。 3.根据权利要求2所述的方法，其中，基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本，包括：对所述第一文档进行标题标注，得到标注后的第一文档；获取所述标注后的第一文档中的标题内容；基于所述标题内容对所述第二文档进行标题标注，得到所述标注后的文档样本。 4.根据权利要求3所述的方法，其中，对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本，包括：基于所述标注后的文档样本确定文本序列特征信息，其中，所述文本序列特征信息至少包括如下之一：所述文档样本所对应的标签、实体信息、标签标识；对所述文本序列特征信息以及所述图像特征信息进行特征融合，得到所述训练样本。 5.根据权利要求4所述的方法，其中，基于所述标注后的文档样本确定文本序列特征信息，包括：对所述标注后的文档样本进行标签转换，得到所述文档样本所对应的标签；对所述标注后的第一文档中的标题内容所对应的索引值以及所述标签进行封装，得到实体信息；对所述标签进行标识转换，得到标签标识。 6.根据权利要求 4所述的方法，所述方法还包括：对所述文本序列特征信息进行语义实体识别，确定所述文档样本所包含的至少一个标题的标题等级。 7.根据权利要求5所述的方法，所述方法还包括：获取目标文档所对应的标签标识的标签长度，其中，所述目标文档为所述文档样本中权　利　要　求　书 1/3 页 2 CN 114724166 A 2的任意一个文档；在所述标签长度大于预设长度时，将所述目标文档切分为多个子文档。 8.根据权利要求1所述的方法，所述方法还包括：获取所述待处理文档；基于所述标题抽取模型对所述待处理文档进行标题抽取，得到所述待处理文档所对应的至少一个标题；确定所述至少一个标题在所述待处理文档中的索引顺序以及标题等级；基于所述索引顺序以及所述标题等级确定所述至少一个标题之间的从属关系，生成多叉树；基于所述多叉树所对应的节点对所述至少一个标题的标题序号进行检测，得到检测结果，其中，所述检测结果表征所述标题序号是否存在错误或缺失。 9.一种标题抽取模型的生成装置，包括：获取模块，用于获取文档样本，其中，所述文档样本中的文档为图像格式；特征提取模块，用于对所述文档样本中的文档进行文本特征提取，得到文本特征信息，并对所述文档进行图像特征提取，得到图像特征信息，其中，所述文本特征信息表征了所述文档样本所包含文本的文本内容以及文本位置，所述图像特征信息表征了所述文档样本所包含文档的文档布局；标注模块，用于基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本；特征融合模块，用于对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本；模型生成模块，用于基于所述训练样本生成标题抽取模型，其中，所述标题抽取模型用于提取待处理文档中的标题。 10.根据权利要求9所述的装置，其中，所述特征提取模块包括：第一切分模块，用于对所述文档样本所包含的文档进行切分处理，得到文档所对应的多个图像；文本识别模块，用于对所述多个图像中的至少一个图像进行文本识别，得到第一文档以及第二文档，其中，所述第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，所述第二文档至少包括：所述第一文本内容，所述第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，所述文本特征信息至少包括所述第一文本内容、所述第一位置信息、所述第二文本内容、所述第二位置信息。 11.根据权利要求10所述的装置，其中，所述标注模块包括：第一标注模块，用于对所述第一文档进行标题标注，得到标注后的第一文档；第一获取模块，用于获取所述标注后的第一文档中的标题内容；第二标注模块，用于基于所述标题内容对所述第二文档进行标题标注，得到所述标注后的文档样本。 12.根据权利要求1 1所述的装置，其中，所述特征融合模块包括：第一确定模块，用于基于所述标注后的文档样本确定文本序列特征信息，其中，所述文权　利　要　求　书 2/3 页 3 CN 114724166 A 3

专利 一种标题抽取模型的生成方法、装置及电子设备

专利一种标题抽取模型的生成方法、装置及电子设备