(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210864447.8
(22)申请日 2022.07.21
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号北
京大学
申请人 国网山东省电力公司信息通信公司
(72)发明人 李广建 罗立群 王宇轩 郑海杰
张凯
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 司立彬
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/84(2019.01)
G06F 16/901(2019.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种异构知识资源智能融合方法
(57)摘要
本发明公开了一种异构知识资源智能融合
方法, 其步骤包括: 1)将待融合的各知识资源分
别转化为一对应的有向图; 2)生成所述有向图中
的每一节 点的语义嵌入向量, 根据节 点的语义嵌
入向量计算节 点间的语义相似度; 如果两节点之
间的语义相似度大于设定联系阈值, 则在对应两
节点之间建立无向边进行连接; 如果两节点之间
的语义相似度大于设定合并阈值, 则将对应两节
点进行合并; 3)对各有向图进行图聚类, 得到多
个类团; 4)根据各所述类团中包含的节点, 生成
对应类团的语义主题并构建语义有向图; 5)将所
述语义有向图转化为OWL本体, 得到融合后的知
识资源。 本发 明对于分散在异构知识资源中的知
识内容进行整合组织, 有助于构建完整的知 识体
系。
权利要求书2页 说明书5页 附图1页
CN 115391550 A
2022.11.25
CN 115391550 A
1.一种异构知识资源智能融合方法, 其 步骤包括:
1)将待融合的各知识资源分别转 化为一对应的有向图;
2)生成所述有向图中的每一节点的语义嵌入向量, 根据节点的语义嵌入向量计算节点
间的语义相似度; 如果两节点之间的语义相似度大于设定联系阈值, 则在对应两节点之间
建立无向边进行连接; 如果两节点之间的语义相似度大于设定合并阈值, 则将对应两节点
进行合并;
3)对步骤2)处 理后的各有向图进行图聚类, 得到多个 类团;
4)根据各 所述类团中包 含的节点, 生成对应 类团的语义主题并构建语义有向图;
5)将所述语义有向图转 化为OWL本体, 得到融合后的知识资源。
2.根据权利要求1所述的方法, 其特征在于, 所述知识资源包括具有嵌套等级结构的结
构化数据和不具有嵌套等级结构的结构化数据; 所述具有嵌套等级结构的结构化数据包括
XML格式数据及非XML格式数据; 其中,
A)将XML格式的知识资源转 化为有向图的方法为:
11)将XSD文档中用于描述实体的元素转化为实体节点Ve; 将该待处理XSD文档中描述
实体属性的元 素转化为属性节点Vp;
12)对于该待处理XSD文档中 的嵌套关系N(a,b), a为父元素, b为子元素; 根据N(a,b)生
成元素a对应节 点指向元素b所对应节 点的有向边, 并将该有向边命名为 “has”+b; 如果元素
b满足条件(1)~(3)中任一条件, 则元素a对应节 点与元素b所对应节 点之间的边称为类边;
其中条件(1)~(3)为: (1)元素b所对应节点为Ve之下的节点; (2)元素b在该待处理XSD中有
具体的约束条件进行限制; (3)元素b为该待处理XSD中的命名节点, 即元素b为实际业务对
象;
B)将具有嵌套等级关系的非XML格式的知识资源转 化为有向图的方法为:
21)将知识资源文档中用于描述实体的元素转化为实体节点Ve; 将描述实体的元素的
属性作为对应实体节点Ve的属性节点Vp;
22)根据实体节点Ve与属性节点Vp的对应关系生成有向边<Ve,Vp>;
C)将不具有嵌套等级结构的知识资源转化为有向图的方法为: 将知识资源中对于每一
类实体的描述单位作为一个实体节点Ve; 将实体的描述单位所包含的每一属性单元作为一
属性节点Vp; 根据实体节点Ve与属性节点Vp的对应关系生成有向边<Ve,Vp>。
3.根据权利要求2所述的方法, 其特征在于, 所述不具有嵌套等级结构的知识资源为关
系型数据库, 所述描述单位为关系 型数据库中的一张表, 所述属 性单元为关系型数据库中
的一个字段; 或者所述不具有嵌套等级结构的知识资源为电子表格, 所述描述单位为电子
表格中的若干个列, 所述属性单 元为电子表格中的列。
4.根据权利要求1或2或3所述的方法, 其特征在于, 将对应两节点进行合并的方法为:
保留两节点中属性较多的节点, 并将属性较少节点的属性添加至所保留节点的属性中。
5.根据权利要求1或2或3所述的方法, 其特征在于, 将对应两节点进行合并的方法为:
由人工决定 两节点中所需保留的节点, 并对所保留节点进行重命名、 属性添加或更新。
6.根据权利要求1或2或3所述的方法, 其特征在于, 使用HDBSCAN算法对步骤2)处理后
的各有向图进行图聚类。
7.根据权利要求1所述的方法, 其特征在于, 生成对应类团的语义主题并构建语义有向权 利 要 求 书 1/2 页
2
CN 115391550 A
2图的方法为:
41)对类团中每个实体节点Ve, 将该实体节点Ve在知识资源中的文本描述与该实体节
点Ve所连各个属性节点Vp对应的文本进行拼接, 作为实体节点Ve的描述信息;
42)根据实体节点Ve的描述信息生成对应实体节点Ve的语义向量vs;
43)对实体节点Ve的描述信息进行主题提取, 将得到的各个主题前K个主题词使用
word2vec算法进行语义嵌入, 并将所得语义嵌入表示与各个主题类别编号进行拼接, 得到
实体节点Ve的主题向量vt;
44)根据语义向量vs与主题向量vt生成实体节点Ve的完整向量vc;
45)使用聚类算法对于得到的各完整向量进行聚类, 根据聚类结果生成每一聚类团的
主题词; 将各聚类团的主题词集合作为该类团的主题, 并创建一新的节点Vec, 作为该类团
的核心节点, 将该类团中其 他实体节点Ve与该节点Vec之间建立有向边<Vec,Ve >。
8.根据权利要求7所述的方法, 其特征在于, 将所述语义有向图转化为OWL本体的方法
为: 对于每个聚类团的节 点Vec及实体节点Ve, 将其直接转化为OWL语 言中的类; 对于有向边
<Vec,Ve>及<Ve,Ve>, 将其转化为OWL语言中的对象属性, 并将有向边中的源节点转化为对
象属性的定义域、 将目标节点转化为对 象属性的值域, 有向边的名称转化为对 象属性的命
名; 对于边<Ve,Vp>及属性顶点Vp, 将Vp的名称转化为OWL语 言中数据属性的命名, 将通过边
<Ve,Vp>与Vp连接的Ve转化为数据属性的定义域, 将Vp在知识资源中对应的元素的数据类
型转化为数据属性的值 域。
9.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述
计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至8任一
所述方法中各步骤的指令 。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115391550 A
3
专利 一种异构知识资源智能融合方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:57上传分享