全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210935055.6 (22)申请日 2022.08.05 (71)申请人 浪潮软件股份有限公司 地址 271000 山东省泰安市东 岳大街527号 浪潮科技园 (72)发明人 吴俊雄 潘震 仇恒坦 杨春蕾  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 潘悦梅 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 关键词分析应用方法及系统、 装置及计算机 可读介质 (57)摘要 本发明公开了关键词分析应用方法及系统、 装置及计算机可读介质, 属于自然语 言处理技术 领域, 要解决的技术问题为如何快速对关键词进 行分析, 并提高其应用。 通过中分分词对文本进 行关键词提取, 将提取的多个关键词作为初始关 键词; 对多个初始关键词进行预处理, 去除停用 词、 并根据词性筛选关键词; 基于每个关键词以 其对应的词频构建可视化的词图; 基于构建的语 义空间计算每个 关键词的词向量, 以词向量之间 的余弦夹角为语义相似度指标, 基于关键词之间 的语义相似度筛选出近义词、 并构建近义词库; 基于构建的语义空间计算每个关键词的词向量, 以词向量之间的余弦夹角为语义相似度指标, 基 于语义相似度检索近义词。 权利要求书2页 说明书6页 附图2页 CN 115391485 A 2022.11.25 CN 115391485 A 1.一种关键词分析应用方法, 其特 征在于包括如下步骤: 通过中分 分词对文本进行关键词提取, 将提取的多个关键词作为初始关键词; 对所述多个初始关键词进行预处理, 去除停用词以及重复词、 并根据词性筛选关键词, 得到最终的关键词; 统计每个关键词在文本 中的频率作为所述关键词的词频, 基于每个关键词以其对应的 词频构建可视化的词图; 基于构建的语义空间计算每个关键词的词向量, 以词向量之间的余弦夹角为语义相似 度指标, 基于关键词之间的语义相似度筛 选出近义词、 并构建近义词库; 基于构建的语义空间计算每个关键词的词向量, 以词向量之间的余弦夹角为语义相似 度指标, 基于语义相似度检索近义词。 2.根据权利要求1所述的关键词分析应用方法, 其特征在于通过如下步骤筛选出近义 词: 构建语义空间; 对于每个关键词, 将所述关键词映射到语义空间得到对应的词向量; 基于词向量依次计算任意两个关键词之间的语义相似度, 并将大于 阈值的语义相似度 对应的两个关键词筛 选为近似词。 3.根据权利要求2所述的关键词分析应用方法, 其特征在于对于N个关键词, 基于词向 量依次计算任意两个关键词之 间的语义相似度, 并将大于阈值的语义相似度对应的两个关 键词筛选为近似词, 包括如下步骤: 对于每个关键词, 基于词向量计算所述关键词与所述N个关键词之间的语义相似度, 得 到N*N的相似度矩阵, 所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与 第b个关键词之间的语义相似度; 设定阈值x, 从所述相似度矩阵中筛 选出语义相似度大于阈值的坐标位置; 对于筛选出的坐标位置, 通过如下步骤进行再次筛选: 去 除行坐标值和列坐标值相同 的坐标位置, 如果两个坐标位置对应的两个关键词相同, 判定所述两个坐标位置为重复位 置, 对于重复位置只保留一个坐标位置; 对于最终的坐标位置, 将所述 坐标位置对应的两个关键词为近义词。 4.根据权利要求1 ‑3任一项所述的关键词分析应用方法, 其特征在于所述词性包括名 词、 介词、 形容词和标点词; 关键词的词性限制为名词、 专有名词、 地址和机构, 不是介词、 形容词和标点词, 基于所 述限制词性, 筛 选出关键词。 5.一种关键词分析应用系统, 其特征在于用于通过如权利要求1 ‑4任一项所述的一种 关键词分析应用方法对关键词进行分析应用, 所述系统包括: 关键词提取模块, 所述关键词提取模块用于通过中分分词对文本进行关键词提取, 将 提取的多个关键词作为初始关键词; 预处理模块, 所述预处理模块用于对所述多个初始关键词进行预处理, 去 除停用词以 及重复词、 并根据词性筛 选关键词, 得到最终的关键词; 词图构建模块, 所述词图构建模块用于统计每个关键词在文本中的频率作为所述关键 词的词频, 基于每 个关键词以其对应的词频构建可视化的词图;权 利 要 求 书 1/2 页 2 CN 115391485 A 2近义词库构建模块, 所述近义词库构建模块用于基于构建的语义空间计算每个关键词 的词向量, 以词向量之间的余弦夹角为语义相似度指标, 基于关键词之间的语义相似度筛 选出近义词、 并构建近义词库; 语义匹配模块, 所述语义匹配模块用于基于构建的语义空间计算每个关键词的词向 量, 以词向量之间的余弦夹角为语义相似度指标, 基于语义相似度检索近义词。 6.根据权利要求5所述的关键词分析应用系统, 其特征在于所述近义词库构建模块用 于通过如下步骤筛 选近义词: 构建语义空间; 对于每个关键词, 将所述关键词映射到语义空间得到对应的词向量; 基于词向量依次计算任意两个关键词之间的语义相似度, 并将大于 阈值的语义相似度 对应的两个关键词筛 选为近似词。 7.根据权利要求6所述的关键词分析应用系统, 其特征在于对于N个关键词, 所述近义 词库构建模块用于如下步骤基于词向量依次计算任意两个关键词之 间的语义相似度, 并将 大于阈值的语义相似度对应的两个关键词筛 选为近似词: 对于每个关键词, 基于词向量计算所述关键词与所述N个关键词之间的语义相似度, 得 到N*N的相似度矩阵, 所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与 第b个关键词之间的语义相似度; 设定阈值x, 从所述相似度矩阵中筛 选出语义相似度大于阈值的坐标位置; 对于筛选出的坐标位置, 通过如下步骤进行再次筛选: 去 除行坐标值和列坐标值相同 的坐标位置, 如果两个坐标位置对应的两个关键词相同, 判定所述两个坐标位置为重复位 置, 对于重复位置只保留一个坐标位置; 对于最终的坐标位置, 将所述 坐标位置对应的两个关键词为近义词。 8.根据权利要求5 ‑7任一项所述的关键词分析应用系统, 其特征在于所述词性包括名 词、 介词、 形容词和标点词; 所述预处理模块用于将关键词的词性限制为名词、 专有名词、 地址和机构, 不是介词、 形容词和标点词, 并用于基于所述限制词性, 筛 选出关键词。 9.一种电子装置, 其特 征在于, 包括: 至少一个存 储器和至少一个处 理器; 所述至少一个存 储器, 用于存 储机器可读程序; 所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至4中任一所述的 方法。 10.计算机可读介质, 其特征在于, 所述计算机可读介质上存储有计算机指令, 所述计 算机指令在被处 理器执行时, 使所述处 理器执行权利要求1至4任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115391485 A 3

PDF文档 专利 关键词分析应用方法及系统、装置及计算机可读介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关键词分析应用方法及系统、装置及计算机可读介质 第 1 页 专利 关键词分析应用方法及系统、装置及计算机可读介质 第 2 页 专利 关键词分析应用方法及系统、装置及计算机可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。