全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210266165.8 (22)申请日 2022.03.17 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 崔壮壮 付波  (74)专利代理 机构 北京博浩百 睿知识产权代理 有限责任公司 1 1134 专利代理师 丰佩印 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/27(2019.01) G06F 16/25(2019.01) G06F 16/215(2019.01) G06F 40/30(2020.01)G06N 5/02(2006.01) (54)发明名称 知识图谱构建方法、 装置、 存储介质及电子 设备 (57)摘要 本公开提供了一种知识图谱构建方法、 装 置、 存储介质及电子设备, 涉及人工智 能技术领 域, 尤其涉及深度学习技术、 计算机视觉技术以 及知识图谱技术领域。 具体实现方案为: 对获取 到的初始数据进行处理, 得到处理后数据, 其中, 处理包括: 整合处理或信息抽取处理, 处理后数 据包括: 结点和结点属性, 边和边属性; 确定与处 理后数据对应的SPO数据, 其中, SPO数据包括如 下三元组信息: 主语S、 谓语P、 宾语O; 采用实体链 接算法将SPO数据同步到图数据库; 采用图数据 库中的SPO数据构建得到知识图谱。 权利要求书2页 说明书10页 附图7页 CN 114661918 A 2022.06.24 CN 114661918 A 1.一种知识图谱构建方法, 其特 征在于, 包括: 对获取到的初始数据进行处理, 得到处理后数据, 其中, 所述处理包括: 整合处理或信 息抽取处 理, 所述处 理后数据包括: 结点和结点属性, 边和边属性; 确定与所述处理后数据对应的SP O数据, 其中, 所述SPO数据包括如 下三元组信息: 主语 S、 谓语P、 宾语O; 采用实体链接算法将所述S PO数据同步到图数据库; 采用所述图数据库中的所述S PO数据构建得到知识图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述对获取到的初始数据进行处理, 得到 处理后数据, 包括: 根据所述初始数据的数据类型, 将所述初始数据划分为结构化数据和非结构化数据, 其中, 所述结构化数据包括全结构化数据和半结构化数据; 对所述结构化数据进行数据整合处理, 得到处理后的结构化数据, 其中, 所述数据整合 处理包括: 数据筛 选及转换、 数据清洗及过 滤、 单位换算、 格式统一; 对所述非结构化数据进行信息抽取处理, 得到处理后的非结构化数据, 其中, 所述信 息 抽取处理用于抽取 所述非结构化数据中的所述结点、 所述结点属性、 所述 边、 所述边属性。 3.根据权利要求1所述的方法, 其特征在于, 所述确定与所述处理后数据对应的SPO数 据, 包括: 获取预先确定的SPO数据格式, 其中, 所述SPO数据格式基于构建所述结点或者所述边 所需要的基本信息确定; 根据所述S PO数据格式, 对所述处 理后数据进行 数据格式转换处 理, 得到所述S PO数据。 4.根据权利要求1所述的方法, 其特征在于, 所述采用实体链接算法将所述SPO数据同 步到图数据库, 包括: 采用所述实体链接算法将所述S PO数据推送到消息队列中; 采用消费组件异步将所述消息队列中的所述S PO数据写入图数据库中。 5.一种知识图谱构建装置, 其特 征在于, 包括: 处理模块, 用于对获取到的初始数据进行处理, 得到处理后数据, 其中, 所述处理包括: 整合处理或信息抽取处 理, 所述处 理后数据包括: 结点和结点属性, 边和边属性; 确定模块, 用于确定与所述处理后数据对应的SP O数据, 其 中, 所述SPO数据包括如 下三 元组信息: 主语S、 谓语P、 宾语O; 同步模块, 用于采用实体链接算法将所述S PO数据同步到图数据库; 构建模块, 用于采用所述图数据库中的所述S PO数据构建得到知识图谱。 6.根据权利要求5所述的装置, 其特 征在于, 所述处 理模块, 包括: 划分单元, 用于根据所述初始数据的数据类型, 将所述初始数据划分为结构化数据和 非结构化数据, 其中, 所述结构化数据包括全结构化数据和半结构化数据; 整合处理单元, 用于对所述结构化数据进行数据整合处理, 得到处理后的结构化数据, 其中, 所述数据整合处 理包括: 数据筛 选及转换、 数据清洗及过 滤、 单位换算、 格式统一; 抽取处理单元, 用于对所述非结构化数据进行信息抽取处理, 得到处理后的非结构化 数据, 其中, 所述信息抽取处理用于抽取所述非结构化数据中的所述结点、 所述结点属 性、 所述边、 所述边属性。权 利 要 求 书 1/2 页 2 CN 114661918 A 27.根据权利要求5所述的装置, 其特 征在于, 所述确定模块, 包括: 获取单元, 用于获取预先确定的SPO数据格 式, 其中, 所述SP O数据格式基于构 建所述结 点或者所述 边所需要的基本信息确定; 格式转换单元, 用于根据所述SPO数据格式, 对所述处理后数据进行数据格式转换处 理, 得到所述S PO数据。 8.根据权利要求5所述的装置, 其特 征在于, 所述同步模块, 包括: 推送单元, 用于采用所述实体链接算法将所述S PO数据推送到消息队列中; 写入单元, 用于采用消费组件异步将所述消息队列中的所述S PO数据写入图数据库中。 9.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑4中任一项所述的知识图谱构建 方法。 10.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑4中任一项所述的知识图谱构建方法。 11.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑4中任一项所述的知识图谱构建方法。 12.一种知识图谱构建产品, 包括如权利要求9所述的电子设备。权 利 要 求 书 2/2 页 3 CN 114661918 A 3

.PDF文档 专利 知识图谱构建方法、装置、存储介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱构建方法、装置、存储介质及电子设备 第 1 页 专利 知识图谱构建方法、装置、存储介质及电子设备 第 2 页 专利 知识图谱构建方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。