全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210261364.X (22)申请日 2022.03.17 (71)申请人 中电云数智科技有限公司 地址 430058 湖北省武汉市蔡甸区经济技 术开发区人工智能科技园N栋研发楼3 层N3013号 (72)发明人 刘昊松 肖红正 冯进 魏涛  (74)专利代理 机构 北京尚钺知识产权代理事务 所(普通合伙) 11723 专利代理师 王海荣 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/35(2020.01)G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 16/901(2019.01) G06F 16/27(2019.01) G06N 5/02(2006.01) G06N 5/04(2006.01) (54)发明名称 基于分布式数据库系统的知识图谱路径推 理方法及系统 (57)摘要 本发明属于知识图谱技术领域, 涉及一种基 于分布式数据库系统的知识图谱路径推理方法、 系统及其应用。 本方法是一种基于GreenPlum分 布式数据库系统和Madlib环境实现知识图谱路 径推理的方法, 本方法以GreenPlum分布式数据 库系统作为知识图谱数据的存储系统, 通过图谱 关系的文本分类、 统一相似关系、 机器学习和逻 辑回归, 构建出具有真实物理意义的特征矩阵, 实现了全量路径的并行查找以及深层路径关系 的推理分析。 作为一种兼容大数据及图计算的全 新的知识图谱路径推理方法, 本方法能够实现对 知识图谱的深层路径关系的推理分析, 经过数据 集验证, 本方法能够实现高效计算、 并提高路径 推理的准确率。 权利要求书2页 说明书5页 附图2页 CN 114595340 A 2022.06.07 CN 114595340 A 1.一种基于分布式数据库系统的知识图谱路径推理方法, 其特 征在于, 所述方法包括: 确定源数据和目标数据, 枚举从源数据到目标数据的全部可达关系路径, 记录每条关 系路径数据形成不定 长数组A[n], 对不定 长数组A[n]中的元 素进行NLP分析; 选择图谱库中的对比样本, 枚举该对比样本 中每条数据与该对比样本中其他各数据之 间的全部可达关系路径, 记录每条关系路径数据形成不定长数组B[n], 对比并计算每个A [n]与B[n]的路径相似度, 获得计算结果; 利用上步获得的计算结果形成数据矩阵, 将所述数据矩阵与已知因变量结合构建出训 练数据表; 使用Madl ib对上步构建的训练数据表进行逻辑回归训练, 得到已训练模型; 记录待预测的关系路径数据形成不定长数组C[n], 对比并计算每个A[n]与C[n]的路径 相似度, 获得计算结果并形成待预测数据矩阵, 将所述待预测数据矩阵与已知因变量结合 构建出待 预测训练数据表, 利用上步已训练模型对所述待 预测训练数据 表进行逻辑回归预 测, 即得到待预测数据从源数据到目标 数据关系成立的概 率。 2.根据权利要求1所述的知识图谱路径推理方法, 其特征在于, 所述不定长数组A[n]中 的元素即为源数据与目标 数据之间每条关系路径包 含的关系内容。 3.根据权利要求1所述的知识图谱路径推理方法, 其特征在于, 所述对不定长数组A[n] 中的元素进行NLP分析包括统一相似关系类别和剔除异常 关系及极少数关系。 4.根据权利要求1所述的知识图谱路径推理方法, 其特征在于, 所述NLP分析包括文本 分类、 文本分析、 语义分析、 情感分析、 意图识别。 5.根据权利要求4所述的知识图谱路径推理方法, 其特征在于, 所述语义分析包括词法 分析、 句法分析、 语用分析、 语境分析。 6.根据权利要求1所述的知识图谱路径推理方法, 其特征在于, 所述图谱库中的对比样 本为图谱库中已有的已知因变量的样本 。 7.根据权利 要求1所述的知识图谱路径推理方法, 其特征在于, 所述A[n]与B[n]的路径 相似度计算指标包括 二者的文本距离和余弦距离 。 8.根据权利要求1所述的知识图谱路径推理方法, 其特征在于, 所述训练数据表存储在 GreenPlum分布式数据库中, 训练数据 表中包含完整的可训练的特征, 在所述训练数据表的 存储过程中规范训练数据表与字段命名。 9.一种基于分布式数据库系统的知识图谱路径推理系统, 其特 征在于, 所述系统包括: 记录模块: 用于记录各类关系路径数据并形成不定 长数组; NLP分析模块: 用于对不定 长数组中的元 素进行NLP分析; 路径相似度计算模块: 用于计算各不定 长数组间的路径相似度; 数据矩阵构建模块: 用于将各不定 长数组间的路径相似度计算结果构建成数据矩阵; 训练数据表构建模块: 用于将数据矩阵与已知因变量结合构建出训练数据表; Madlib训练模块: 用于对训练数据表进行逻辑回归训练并得到已训练模型; 关系预测模块: 用于通过已训练模型对待预测训练数据表进行逻辑回归预测, 得到待 预测数据从源数据到目标 数据关系成立的概 率。 10.一种基于分布式数据库系统 的知识图谱路径推理装置, 包括处理器和存储器, 其特 征在于, 所述存储器中存储有至少一种 可执行指令, 所述处理器根据该指令执行权利要求权 利 要 求 书 1/2 页 2 CN 114595340 A 21‑8任一项所述的知识图谱路径推理方法。权 利 要 求 书 2/2 页 3 CN 114595340 A 3

.PDF文档 专利 基于分布式数据库系统的知识图谱路径推理方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分布式数据库系统的知识图谱路径推理方法及系统 第 1 页 专利 基于分布式数据库系统的知识图谱路径推理方法及系统 第 2 页 专利 基于分布式数据库系统的知识图谱路径推理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。