全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111660511.2 (22)申请日 2021.12.3 0 (71)申请人 北京杰思安全科技有限公司 地址 100089 北京市海淀区学院路5号768 创意产业园区B座10门1091 (72)发明人 胡成  (74)专利代理 机构 北京酷爱智慧知识产权代理 有限公司 1 1514 代理人 刘志刚 (51)Int.Cl. G06F 40/194(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于语义的相似度计算方法、 装置及存 储介质 (57)摘要 本发明公开了一种基于语义的相似度计算 方法、 装置及存储介质, 所述方法包括: 对所提供 的业务文档进行处理, 以生成模板; 所述处理包 括对业务文档的分词处理和对所述分词构建空 间向量; 对生成的模板设置与文档语义相关联的 关键词和关键句; 将待匹配文档按照生成所述模 板相同的方式进行处理后, 再与所述模板进行匹 配计算, 以得到匹配相似度; 所述匹配计算包括 词频相似度、 加权关键词匹配度和加权关键句匹 配度计算; 若所述匹配相似度达到设定阈值, 则 所述待匹配文档为需要特定 保护的文档; 其有益 效果是: 整个方案除了常规的词频相似度计算, 还加入了关联语义的关键词和关键句的加权处 理, 从而使匹配结果更加准确, 进而减少相应误 判情形的发生。 权利要求书2页 说明书6页 附图1页 CN 114417811 A 2022.04.29 CN 114417811 A 1.一种基于语义的相似度计算方法, 其特 征在于, 所述方法包括: 对所提供的业务文档进行处理, 以生成模板; 其中, 所述处理包括对所述业务文档的分 词处理和对所述分词构建空间向量; 对生成的所述模板设置与文档语义相关联的关键词和关键句; 将待匹配文档按照生成所述模板相同的方式进行处理后, 再与所述模板进行匹配计 算, 以得到匹配相似度; 其中, 所述匹配计算包括词频相似度、 加权关键词匹配度和加权关 键句匹配度计算; 若所述匹配相似度达 到设定阈值, 则所述待匹配文档为需要特定保护的文档。 2.如权利要求1所述的一种基于语义的相似度计算方法, 其特征在于, 所述匹配计算 时, 先判断所述待匹配文档是否为所述业务文档的子集, 若是, 则无需计算, 直接判定所述 待匹配文档为需要特定保护的文档。 3.如权利要求1或2所述的一种基于语义的相似度计算方法, 其特征在于, 所述加权关 键词匹配度通过以下步骤得 出: 首先分别获取 所述业务文档的分词列表和待匹配文档的分词列表; 然后以分词 多的列表作为分母, 将所述业务文档和待匹配文档中最长的相同分词部分 片段的数量作为分子, 以得到关键词匹配度; 最后再将所述关键词匹配度结合预设的关键词权 重值, 得到所述加权关键词匹配度。 4.如权利要求3所述的一种基于语义的相似度计算方法, 其特征在于, 所述加权关键句 匹配度通过以下步骤得 出: 在所述业务文档和待匹配文档中分别提取关键句, 以形成各自的关键句列表; 以关键句多的列表作为计算分母,两列表中关键句相近的句子数量作为分子, 以得到 关键句匹配度; 最后再将所述关键句匹配度结合预设的关键句权 重值, 得到所述加权关键句匹配度。 5.一种基于语义的相似度计算装置, 其特 征在于, 包括: 模板生成模块, 用于对所提供的业务文档进行处理, 以生成模板; 其中, 所述处理包括 对所述业务文档的分词处 理和对所述分词构建空间向量; 设置模块, 用于对生成的所述模板设置与文档语义相关联的关键词和关键句; 待匹配文档生成模块, 用于将待匹配文档按照生成所述模板相同的方式进行处 理; 相似度计算模块, 用于: 将所述待匹配文档处理后, 与所述模板进行匹配计算, 以得到匹配相似度; 其中, 所述 匹配计算包括词频相似度、 加权关键词匹配度和 加权关键句匹配度计算; 若所述匹配相似度达 到设定阈值, 则所述待匹配文档为需要特定保护的文档; 返回模块, 用于展示所述相似度计算模块所 得到的匹配 计算结果。 6.如权利要求5所述的一种基于语义的相似度计算装置, 其特征在于, 所述匹配计算 时, 先判断所述待匹配文档是否为所述业务文档的子集, 若是, 则无需计算, 直接判定所述 待匹配文档为需要特定保护的文档。 7.如权利要求5或6所述的一种基于语义的相似度计算装置, 其特征在于, 所述加权关 键词匹配度通过以下步骤得 出: 首先分别获取 所述业务文档的分词列表和待匹配文档的分词列表;权 利 要 求 书 1/2 页 2 CN 114417811 A 2然后以分词 多的列表作为分母, 将所述业务文档和待匹配文档中最长的相同分词部分 片段的数量作为分子, 以得到关键词匹配度; 最后再将所述关键词匹配度结合预设的关键词权 重值, 得到所述加权关键词匹配度。 8.如权利要求7所述的一种基于语义的相似度计算装置, 其特征在于, 所述加权关键句 匹配度通过以下步骤得 出: 在所述业务文档和待匹配文档中分别提取关键句, 以形成各自的关键句列表; 以关键句多的列表作为计算分母,两列表中关键句相近的句子数量作为分子, 以得到 关键句匹配度; 最后再将所述关键句匹配度结合预设的关键句权 重值, 得到所述加权关键句匹配度。 9.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至4中任一项 所述的一种基于语义的 相似度计算方法的步骤。权 利 要 求 书 2/2 页 3 CN 114417811 A 3

.PDF文档 专利 一种基于语义的相似度计算方法、装置及存储介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义的相似度计算方法、装置及存储介质 第 1 页 专利 一种基于语义的相似度计算方法、装置及存储介质 第 2 页 专利 一种基于语义的相似度计算方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:42:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。