全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210998984.1 (22)申请日 2022.08.19 (71)申请人 北京易华录信息技 术股份有限公司 地址 100043 北京市石景山区阜石路16 5号 院1号楼10 01室 (72)发明人 胡泽婷 郭曼 路兴  (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 刘静 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于关键短语的知识图谱可视化方法 及系统 (57)摘要 本发明提供一种基于关键短语的知识图谱 可视化方法及系统, 方法包括: 对文本进行预处 理得到分词结果, 并基于分词结果获取高频词及 提取实体, 构建实体间的共现关系; 运用关键词 提取算法从高频词中找出关键词, 将相邻关键词 进行融合, 得到候选关键短语; 将分词结果重组 得到新短语, 将新短语与候选关键短语排序得到 最终关键短语; 对文本抽取事件三元组, 根据构 建的事件三元组, 建立最终关键短语、 高频词和 实体三者之间的关系; 将实体间的共现关系, 和 最终关键短语、 高频词和实体三者之间的关系进 行图谱化展示。 本发明可以快速直观 地了解当前 文本的关键词以及知识结构体系, 能全面捕捉文 章的关键信息 。 权利要求书2页 说明书8页 附图3页 CN 115249012 A 2022.10.28 CN 115249012 A 1.一种基于关键短语的知识图谱可视化方法, 其特 征在于, 包括: 对文本进行预处理得到分词结果, 并基于分词结果获取高频词及提取实体, 并构建实 体间的共现关系; 运用关键词提取算法从高频词中找出关键词, 将相邻关键词进行融合, 得到候选关键 短语; 将分词结果进行重组得到新短语, 将新短语与候选关键短语进行排序得到最终关键短 语; 对文本抽取事件三元组, 过滤出与实体相关的事件三元组, 根据所述构建的事件三元 组, 建立最终关键短语、 高频词和实体三 者之间的关系; 将实体间的共现关系, 以及最终关键短语、 高频词和实体三者之间的关系进行图谱化 展示。 2.根据权利要求1所述的基于关键短语的知识图谱可视化方法, 其特征在于, 所述对文 本进行预处理得到分词结果的过程, 包括: 移除文本中括 号内的信息, 去除噪声; 将文本进行短句切分处 理, 得到多个句子; 对句子进行分词处 理得到分词结果。 3.根据权利要求1所述的基于关键短语的知识图谱可视化方法, 其特征在于, 所述提取 实体, 并构建实体间的共现关系的过程, 包括: 在文本中查找提取的实体并标记其类型, 进行命名实体识别; 从文本中抽取至少两个实体之间的语义关系, 作为 直接共现关系; 利用具有大量实体与关系构 成的知识库对文本 中实体进行关系标注, 得到实体之间的 推理共现关系; 所述直接共现关系和推理共现关系共同组成实体之间的共现关系。 4.根据权利要求3所述的基于关键短语的知识图谱可视化方法, 其特征在于, 所述从文 本中抽取至少两个实体之 间的语义关系, 包括 实体之间关系抽取和实体属性抽取, 其中: 实 体之间关系抽取是采取监督学习或远程监督学习的方式抽取实体之 间的关系; 实体属性抽 取是对实体的特 征和性质进行抽取。 5.根据权利要求1所述的基于关键短语的知识图谱可视化方法, 其特征在于, 运用关键 词提取算法从高频词中找出关键词, 将相 邻关键词进 行融合, 得到候选 关键短语的过程, 包 括: 采用tf‑idf算法从高频词中找出碎片化的关键词, 将在文本中相邻的碎片化的关键词 进行合并得到 关键短语, 根据权重对关键 短语进行排序调整, 去除意义相同的短语, 得到候 选关键短语; 所述权重包括关键短语的词性权重、 位置权重、 长度权重以及主题突出度权 重。 6.根据权利要求5所述的基于关键短语的知识图谱可视化方法, 其特征在于, 所述融合 得到候选关键短语的条件, 包括: 短语的token长度不超过预设长度阈值; 关键短语中不可 出现超过预设数个的虚词; 关键 短语的两端t oken不可是虚词和停用词; 关键短语中停用词 数量不可超过预设个数; 运用MMR算法计算短语重复度, 进而去掉意义相同的关键短语, 所 述token为词汇, 包括关键词, 以及关键词相应的虚词、 停用词。权 利 要 求 书 1/2 页 2 CN 115249012 A 27.根据权利要求1所述的基于关键短语的知识图谱可视化方法, 其特征在于, 所述将新 短语与候选 关键短语进行排序得到最 终关键短语, 使用LDA主题模型进 行计算权重并排序, 包括: 预训练LDA模型, 其包括对文本进行分类, 并进行主题预测; 使用预训练好的LDA模型, 计算文本的主题概率分布以及每一个关键短语与新短语的 在不同主题下 的概率分布, 将得到的概率分布作为最终权重; 将所述关键短语与新短语在 不同主题下的最终权 重, 由大到小 进行排序, 得到不同主题分别对应的最终关键短语。 8.一种基于关键短语的知识图谱可视化系统, 其特 征在于, 包括: 文本预处理模块, 对文本进行预处理得到分词结果, 并基于分词结果获取高频词及提 取实体, 并构建实体间的共现关系; 关键词融合模块, 运用关键词提取算法从高频词中找出关键词, 将相邻关键词进行融 合, 得到候选关键短语; 短语重组模块, 用于将分词结果进行重组得到新短语, 将新短语与候选关键短语进行 排序得到最终关键短语; 关系建立模块, 用于对文本抽取事件三元组, 过滤出与实体相关的事件三元组, 并根据 所述构建的事 件三元组, 建立 最终关键短语、 高频词和实体之间的关系; 图谱化展示模块, 用于将实体间的共现关系以及最终关键短语、 高频词和实体之间的 关系进行图谱化展示。 9.一种计算机设备, 其特征在于, 包括: 存储器和 处理器, 所述存储器和所述处理器之 间互相通信连接, 所述存储器存储有计算机指 令, 所述处理器通过执行所述计算机指 令, 从 而执行如权利要求1 ‑7任一项所述的基于关键短语的知识图谱可视化方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执行如权利要求1 ‑7任一项所述的基于关键短语的 知识图谱可视化方法。权 利 要 求 书 2/2 页 3 CN 115249012 A 3

PDF文档 专利 一种基于关键短语的知识图谱可视化方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于关键短语的知识图谱可视化方法及系统 第 1 页 专利 一种基于关键短语的知识图谱可视化方法及系统 第 2 页 专利 一种基于关键短语的知识图谱可视化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。