全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210955172.9 (22)申请日 2022.08.10 (71)申请人 中国科学技术信息研究所 地址 100038 北京市海淀区复兴 路15号 (72)发明人 张运良 刘志辉 李琳娜 王力  王莉军  (74)专利代理 机构 北京市盛峰律师事务所 11337 专利代理师 于国强 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 一种强化技术知识图谱的生成方法及其装 置 (57)摘要 本发明涉及情报分析技术领域, 尤其涉及一 种强化技术知识图谱的生 成方法及其装置, 所述 方法包括基于统计学方法并结合预设的抽取规 则分别抽取属于方法、 流程、 装置和功能类型的 技术实体; 将技术实体按照所属类型分别进行归 并, 通过归并技术实体对具体文本数据中的所有 技术实体进行替换处理, 为对应的归并技术实体 添加关系, 并与具体文本数据对应的通用知 识图 谱关联, 以形成强化技术的知识图谱。 本发明对 于技术本身相关实体的区分明确, 能够从多种不 同技术维度查询知识图谱, 通过归并, 减少技术 相关各类实体的数量, 在图谱展示上能够更加清 晰。 权利要求书2页 说明书6页 附图1页 CN 115269782 A 2022.11.01 CN 115269782 A 1.一种强化 技术知识图谱的生成方法, 其特 征在于, 所述方法包括: 获取文本数据集 合, 所述文本数据集 合中包含多个具体文本数据; 基于统计学方法并结合预设的抽取规则分别抽取属于方法、 流程、 装置和功能类型的 技术实体; 将所述技术实体按照所属类型分别进行归并, 得到归并技 术实体; 通过所述归 并技术实体对所述文本数据集合中的所有技术实体进行替换处理, 得到归 并文本数据; 当所述归并文本数据中不同类型的归 并技术实体之间共现次数超过第 一共现阈值 时, 为对应的归并技术实体添加关系; 并与所述具体文本数据对应的通用知识图谱关联, 以形 成强化技术的知识图谱。 2.根据权利要求1所述的强化技术知识图谱的生成方法, 其特征在于, 所述抽取规则包 括停用词表集 合, 所述停用词表集 合包括通用停用词表和技 术停用词表。 3.根据权利要求1所述的强化技术知识图谱的生成方法, 其特征在于, 所述抽取规则包 括关系矩阵; 所述关系矩阵为二维矩阵, 两个维度分别为功能模块和技术 实体类型, 所述功 能模块是所述文本数据集合经分类得到的集合; 矩阵值代表对应技术实体类型出现在 对应 功能模块中的可能性, 若 具有可能性则对应矩阵值为 1, 否则为0; 抽取技术 实体时仅在矩阵 值为1的功能模块中抽取对应 类型的技 术实体。 4.根据权利要求1所述的强化技术知识图谱的生成方法, 其特征在于, 将所述技术实体 按照所属类型分别进行归并, 具体包括: 选取任一类型的技 术实体, 作为第一 技术实体; 基于字面相似度方法获取关于所述第一 技术实体的第一归并集 合; 基于编辑距离相似度计算方法获取关于所述第一 技术实体的第二归并集 合; 基于深度学习w ord2vec相似度方法获取关于所述第一 技术实体的第三归并集 合; 基于共现统计方法分别获取所述第一技术实体与其他任一类型技术实体的共现归并 集合; 根据归并结果在各归 并集合中的出现次数进行归 并排序, 获取出现次数满足归 并阈值 的归并结果。 5.根据权利要求4所述的强化技术知识图谱的生成方法, 其特征在于, 基于共现统计方 法分别获取 所述第一 技术实体与其 他任一类型技 术实体的共现归并集 合, 具体包括: 选取除所述第一 技术实体以外的其 他任一类型技 术实体作为第二 技术实体; 获取第一技术实体Xi所共现的第二技术实体Yi, 获取第一技术实体Xj所共现的第二技 术实体Xj, 当所述第二技术实体Yi与所述第二技术实体Yj相同时, 则 所述第一技术实体Xi 与所述第一 技术实体Xj相应的共现次数加1; 将所述共现次数满足第二共现阈值的第一 技术实体进行归并; 其中, 所述第一技术实体Xi与所述第一技术实体Xj为所述第 一技术实体 中的不同技术 实体。 6.根据权利要求5所述的强化 技术知识图谱的生成方法, 其特 征在于: 当所述第二技术实体Yi与所述第二技术实体Yj不相同时, 则获取所述第二技术实体Yi 与所述第二技术实体Yj所共现的相同的第三技术实体的数量C1以及相同的第四技术实体权 利 要 求 书 1/2 页 2 CN 115269782 A 2的数量C2; 若α C1+β C2>γ, 则所述第一 技术实体Xi与所述第一 技术实体Xj相应的共现次数加1; 其中, 0<α ≤0.5, 0<β ≤0.5, γ≥1, 所述第三技术实体和第四技术实体分别为除所述第 一技术实体和第二 技术实体以外的其 他类型技 术实体。 7.根据权利要求1所述的强化技术知识图谱的生成方法, 其特征在于, 还包括: 基于归 并文本数据对应的发布时间生成归并技术实体的时间二元组, 所述时间二元组包括归并技 术实体对应的最 早发布时间和最晚发布时间。 8.一种强化技术知识图谱的生成装置, 其特征在于, 用于实现权利要求1至7任一所述 方法, 包括: 获取模块, 用于获取文本数据集 合, 所述文本数据集 合中包含多个具体文本数据; 抽取模块, 用于基于统计学方法并结合预设的抽取规则分别抽取属于方法、 流程、 装置 和功能类型的技 术实体; 第一处理模块, 用于将所述 技术实体按照所属类型分别进行归并, 得到归并技 术实体; 第二处理模块, 用于通过所述归 并技术实体对所述文本数据集合中的所有技术实体进 行替换处 理, 得到归并文本数据; 第三处理模块, 用于当所述归 并文本数据中不同类型的归 并技术实体之间共现次数超 过第一共现阈值时, 为对应的归并技术实体添加关系; 并与所述具体文本数据对应的通用 知识图谱关联, 以形成强化 技术的知识图谱。权 利 要 求 书 2/2 页 3 CN 115269782 A 3

.PDF文档 专利 一种强化技术知识图谱的生成方法及其装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种强化技术知识图谱的生成方法及其装置 第 1 页 专利 一种强化技术知识图谱的生成方法及其装置 第 2 页 专利 一种强化技术知识图谱的生成方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。