全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211025957.2 (22)申请日 2022.08.25 (71)申请人 上海浦东发展银行股份有限公司 地址 200001 上海市黄浦区中山 东一路12 号 (72)发明人 刘天嘉 甘竹红 李安奇 方宇洁  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 阚传猛 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 文本数据信息挖掘方法、 装置、 设备 (57)摘要 本公开涉及语义挖掘技术领域, 具体公开了 一种文本 数据信息挖掘方法、 装置、 计算机设备, 所述方法包括: 获取文本数据, 对所述文本数据 进行规则解析, 提取各层级标题; 建立所述各层 级标题的父子级关系, 并建立所述各层级标题与 文本数据中的段落文本和图片路径的对应关系; 根据所述段落文本获取所述段落文本的中心摘 要; 根据所述中心摘要与所述各层级标题获取关 键词; 根据所述文本数据和所述关键词进行实体 拆解与识别, 构建文本脉络图谱。 本公开可以根 据关键词和文本数据构建文本脉络图谱, 在保证 挖掘准确度的情况下实现了对文本数据的深度 语义挖掘。 权利要求书2页 说明书14页 附图13页 CN 115374781 A 2022.11.22 CN 115374781 A 1.一种文本数据信息挖掘方法, 其特 征在于, 所述方法包括: 获取文本数据, 对所述文本数据进行规则解析, 提取 各层级标题; 建立所述各层级标题的父子级关系, 并建立所述各层级标题与文本数据中的段落文本 和图片路径的对应关系; 根据所述段落文本获取 所述段落文本的中心摘要; 根据所述中心摘要与所述各层级标题获取关键词; 根据所述文本数据和所述关键词进行实体 拆解与识别, 构建文本脉络图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述段落文本获取所述段落文本 的中心摘要, 包括: 解析所述段落文本, 从所述段落文本中抽取候选语句, 组成候选语句池; 基于所述 候选语句池中的候选语句注意力和词语注意力联合 生成第一 候选摘要; 对预先设置的摘要模板进行排序, 确定候选摘要模板; 根据所述第一 候选摘要和所述 候选摘要模板结合 生成所述中心摘要。 3.根据权利要求2所述的方法, 其特征在于, 所述对预先设置的摘要模板进行排序, 确 定候选摘要模板, 包括: 将所述摘要模板 输入摘要排序模型; 获取所述摘要排序模型对所述摘要模板的排序, 确定 输出的所述 候选摘要模板; 其中, 所述摘要排序模型通过以下步骤训练得到: 获取摘要模板训练集, 所述摘要模板训练集中包括段落文本和所述段落文本对应的目 标摘要; 计算所述摘要模板与所述目标摘要的评价指标 得分; 根据所述评价指标 得分对所述摘要模板进行排序, 输出指定顺序的候选摘要模板 。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述中心摘要与 所述各层级标题 获取关键词, 包括: 对所述中心摘要和所述各层级标题进行分词分句处 理, 得到预测词; 基于所述预测词的语义依赖关系建立 边, 并进行实体关系提取生成语义网络; 根据所述中心摘要和所述各层级标题的权重分配, 从所述语义网络中提取所述关键 词。 5.一种文本数据的语义检索 知识库构建方法, 其特 征在于, 所述方法包括: 批量收集文本数据, 采用如权利要求1 ‑4任意一项所述的方法, 获取所述文本数据的各 层级标题、 段落文本、 中心摘要、 关键词、 文本脉络图谱, 构建语义检索 知识库的基础数据; 将所述各层级标题、 段落文本、 中心摘要、 关键词、 文本脉络图谱基于所述关键词进行 分类, 并按照类别写入分布式检索集群。 6.一种文本数据的语义检索方法, 其特 征在于, 包括: 获取搜索词句, 对所述搜索词句进行分词以提取搜索分词; 将所述搜索分词在语义检索 知识库中进行匹配; 获取所述搜索分词的匹配结果; 对所述匹配结果进行搜索分词匹配频率排序, 并将文本脉络图谱关联至所述匹配结 果;权 利 要 求 书 1/2 页 2 CN 115374781 A 2其中, 所述语义检索 知识库通过如权 5所述的方法构建。 7.根据权利要求6所述的方法, 其特征在于, 所述将所述搜索分词在检索集群中进行匹 配, 包括: 将所述搜索分词与关键词基于第一匹配规则进行匹配; 将所述搜索分词与中心摘要基于第二匹配规则进行匹配; 将所述搜索分词与段落文本基于第三匹配规则进行匹配; 得到所述搜索分词满足所述第一匹配规则、 所述第二匹配规则、 所述第三匹配规则中 的至少一个匹配规则的匹配结果。 8.一种文本数据信息挖掘装置, 其特 征在于, 所述装置包括: 标题提取模块, 用于获取文本数据, 对所述文本数据进行规则解析, 提取 各层级标题; 标题关系模块, 用于建立所述各层级标题的父子级关系, 并建立所述各层级标题与文 本数据中的段落文本和图片路径的对应关系; 摘要模块, 用于根据所述段落文本获取 所述段落文本的中心摘要; 关键词模块, 用于根据所述中心摘要与所述各层级标题获取关键词; 文本脉络模块, 用于根据所述文本数据和所述关键词进行实体拆解与识别, 构建文本 脉络图谱。 9.一种文本数据的语义检索 知识库构建装置, 其特 征在于, 所述装置包括: 基础数据模块, 用于批量收集文本数据, 采用如权利要求1 ‑4任意一项所述的方法, 获 取所述文本数据的各层 级标题、 段落文本、 中心摘要、 关键词、 文本脉络图谱, 构建语义检索 知识库的基础数据; 写入模块, 用于将所述各层级标题、 段落文本、 中心摘要、 关键词、 文本脉络图谱基于所 述关键词进行分类, 并按照类别写入分布式检索集群。 10.一种文本数据的语义检索装置, 其特 征在于, 所述装置包括: 搜索分词模块, 用于获取搜索词句, 对所述搜索词句进行分词以提取搜索分词; 搜索分词匹配模块, 用于将所述搜索分词在语义检索 知识库中进行匹配; 匹配结果模块, 用于获取 所述搜索分词的匹配结果; 结果排序模块, 用于对所述匹配结果进行搜索分词 匹配频率排序, 并将文本脉络 图谱 关联至所述匹配结果; 其中, 所述语义检索 知识库通过如权 5所述的方法构建。 11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115374781 A 3

PDF文档 专利 文本数据信息挖掘方法、装置、设备

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本数据信息挖掘方法、装置、设备 第 1 页 专利 文本数据信息挖掘方法、装置、设备 第 2 页 专利 文本数据信息挖掘方法、装置、设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。