(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210720789.2
(22)申请日 2022.06.24
(65)同一申请的已公布的文献号
申请公布号 CN 114792092 A
(43)申请公布日 2022.07.26
(73)专利权人 武汉北大高科软件股份有限公司
地址 430070 湖北省武汉市洪山区珞 瑜路
716号华乐商务中心17层
(72)发明人 王涛 罗铮 邓昕 黄涛
(74)专利代理 机构 北京集智东方知识产权代理
有限公司 1 1578
专利代理师 吴倩 龚建蓉
(51)Int.Cl.
G06F 40/258(2020.01)
G06F 16/36(2019.01)
G06F 40/126(2020.01)G06F 40/216(2020.01)
G06F 40/253(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(56)对比文件
CN 110196913 A,2019.09.0 3
CN 113609866 A,2021.1 1.05
CN 113392651 A,2021.09.14
CN 113988075 A,202 2.01.28
CN 113255320 A,2021.08.13
US 2021216712 A1,2021.07.15
US 2019095 525 A1,2019.0 3.28
CN 109408642 A,2019.0 3.01
倪兵.基于语义依存和外 部知识库的关键词
抽取. 《计算机 工程与设计》 .202 2,全文.
审查员 朱江
(54)发明名称
一种基于语义增强的文本主题抽取方法及
装置
(57)摘要
本发明提供了一种基于语义增强的文本主
题抽取方法及装置, 涉及文本处理技术领域。 本
申请中, 首先对原始文本中的影 响句法关系分析
的文本进行预处理, 以提高最终抽取文本主题的
精准度。 然后数据序列进行编码, 并构建句法关
系依存图以获得知识增强后的文本, 以增强文本
中的拓展知识, 且充分利用了词语的内部信息、
外部上下文信息和句法信息, 提升最终主题抽取
的精准度。 基于句法关系依存图中每个节点的权
重值抽取数据序列中的文本主题, 不但速度快,
而且精确度较高。
权利要求书3页 说明书10页 附图3页
CN 114792092 B
2022.09.13
CN 114792092 B
1.一种基于语义增强的文本主题抽取 方法, 其特 征在于, 包括:
获取数据序列, 所述数据序列是原始文本经过预处理后得到的集合, 所述预处理是对
所述原始文本中提取出的初始核心字符和初始核心词; 其中将所述原始文本按照如下公式
进行概率标记, 并基于所述 概率标记进行 预处理, 公式为:
其中: a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
为将命名性指 标b标注为实体a的次数;
为知识库中命名性指 标b出
现的总次数;
对所述数据序列进行编码, 并构建句法关系依存图, 所述句法关系依存图是以词语为
节点, 且以句子中两个所述节点之间的依存关系为 边构建的图谱;
基于所述句法关系依存图计算每 个所述节点的权 重值;
基于所述权 重值对所述数据 序列进行排序和输出, 从而对文本主题进行抽取。
2.根据权利要求1所述的基于语义增强的文本主题抽取方法, 其特征在于, 所述预处理
的方法包括:
判断所述原 始文本中是否含有第一预设信息, 所述第一预设信息为预设 分隔符;
若所述原始文本中含有所述第一预设信息, 确定删除字段信息, 所述删除字段信息包
括所述第一预设信息的起始位置和终止位置;
基于所述删除字段信息, 对所述原 始文本进行删除, 得到删除后的所述原 始文本;
基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别, 并基于预设阈值
提取必要实体;
基于所有的所述必要实体, 对所述原 始文本进行句法分析 得到数据 序列。
3.根据权利要求1所述的基于语义增强的文本主题抽取方法, 其特征在于, 对所述数据
序列进行编码, 并构建句法关系依存图包括:
基于所述数据 序列通过BERT预训练模型, 得到每 个字的向量编码;
基于所述数据 序列通过Bi LSTM模型计算, 得到每 个词的向量编码;
基于每个所述词的向量编码通过GAT模型进行语法增强, 得到文本的向量编码;
将同一位置的所述字的向量编码、 所述词的向量编码和所述文本的向量编码进行拼
接, 得到重组序列;
基于所述重组序列构建语义 提升矩阵;
根据所述语义 提升矩阵解析 所述数据 序列, 得到句法关系依存图。
4.根据权利要求3所述的基于语义增强的文本主题抽取方法, 其特征在于, 基于所述重
组序列构建语义 提升矩阵包括:
基于所述重组序列计算, 得到语义相关度集合, 所述语义相关度集合中的每个语义相
关度为两个词之间的余弦相识度的均值;
基于所述语义相关度集 合分别计算, 得到语义 提升矩阵。
5.根据权利要求4所述的基于语义增强的文本主题抽取方法, 其特征在于, 基于所述句
法关系依存图计算每 个所述节点的权 重值包括:
基于每个所述语义相关度的大小 进行降序排列;权 利 要 求 书 1/3 页
2
CN 114792092 B
2基于降序排列后的所述语义相关度和预设个数, 得到 筛选后的所述语义相关度;
基于筛选后的所述语义相关度, 计算所述语义 提升矩阵中所述语义相关度的权 重。
6.一种基于语义增强的文本主题抽取装置, 其特 征在于, 包括:
获取模块: 用于获取数据序列, 所述数据序列是原始文本经过预处理后得到的集合, 所
述预处理是对所述原始文本中提取出的初始核心字符和初始核心词, 其中将所述原始文本
按照如下公式进行概 率标记, 并基于所述 概率标记进行 预处理, 公式为:
其中: a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
为将命名性指标b标注为实体a的次数;
为知识库中命名性指标b出
现的总次数;
构建模块: 用于对所述数据序列进行编码, 并构建句法关系依存图, 所述句法关系依存
图是以词语为节点, 且以句子中两个所述节点之间的依存关系为 边构建的图谱;
计算模块: 用于基于所述句法关系依存图计算每 个所述节点的权 重值;
抽取模块: 用于基于所述权重值对所述数据序列进行排序和输出, 从而对文本主题进
行抽取。
7.根据权利要求6所述的基于语义增强的文本主题抽取装置, 其特征在于, 所述获取模
块包括:
判断单元: 用于判断所述原始文本中是否含有第一预设信息, 所述第一预设信息为预
设分隔符;
截取单元: 用于若所述原始文本 中含有所述第 一预设信 息, 确定删除字段信息, 所述删
除字段信息包括所述第一预设信息的起始位置和终止位置;
删除单元: 用于基于所述删除字段信 息, 对所述原始文本进行删除, 得到删除后的所述
原始文本;
识别单元: 用于基于删除后的所述原始文本利用DBp edia Spotlight进行实体识别, 并
基于预设阈值 提取必要实体;
分析单元: 用于基于所有的所述必要实体, 对所述原始文本进行句法分析得到数据序
列。
8.根据权利要求6所述的基于语义增强的文本主题抽取装置, 其特征在于, 所述构建模
块包括:
第一单元: 用于基于所述数据 序列通过BERT预训练模型, 得到每 个字的向量编码;
第二单元: 用于基于所述数据 序列通过Bi LSTM模型计算, 得到每 个词的向量编码;
第三单元: 用于基于每个所述词的向量编码通过GAT模型进行语法增强, 得到文本的向
量编码;
重组单元: 用于将同一位置的所述字的向量编码、 所述词的向量编码和所述文本的向
量编码进行拼接, 得到 重组序列;
计算单元: 用于基于所述重组序列构建语义 提升矩阵;
解析单元: 用于根据所述语义 提升矩阵解析 所述数据 序列, 得到句法关系依存图。
9.根据权利要求8所述的基于语义增强的文本主题抽取装置, 其特征在于, 所述计算单权 利 要 求 书 2/3 页
3
CN 114792092 B
3
专利 一种基于语义增强的文本主题抽取方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:32上传分享