(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211229796.9 (22)申请日 2022.10.09 (71)申请人 竹间智能科技 (上海) 有限公司 地址 200030 上海市徐汇区宜山路70 0号B2 幢楼18层整层 (72)发明人 简仁贤 王海波 马永宁  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 肖鹏 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种知识图谱构建方法、 装置、 电子设备及 存储介质 (57)摘要 本申请提供一种知识图谱构建方法、 装置、 电子设备及存储介质, 用于改善构建知识图谱的 效率较低的问题。 该方法包括: 获取待处理文本, 并预测出待处理文本对应的多个实体组合, 多个 实体组合中的每个实体组合包括: 头实体值和尾 实体类型, 以及头实体值对应的头实体类型与尾 实体类型之间的关联关系; 对头实体值、 关联关 系、 尾实体类型和待处理文本进行编码, 获得编 码文本表 示; 预测出编码文本表 示中尾实体类型 对应的尾实体值; 根据头实体值、 关联关系和尾 实体值形成的三元组信息构建知识图谱。 权利要求书2页 说明书13页 附图3页 CN 115510243 A 2022.12.23 CN 115510243 A 1.一种知识图谱构建方法, 其特 征在于, 包括: 获取待处理文本, 并预测出所述待处理文本对应的多个实体组合, 所述多个实体组合 中的每个实体组合包括: 头实体值和尾实体类型, 以及所述头实体值对应的头实体类型与 所述尾实体 类型之间的关联关系; 对所述头实体值、 所述关联关系、 所述尾实体类型和所述待处理文本进行编码, 获得编 码文本表示; 预测出所述编码文本表示中所述尾实体 类型对应的尾实体值; 使用所述头实体值、 所述关联关系 、 所述尾实体值构建知识图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述预测出所述待处理文本对应的多个实 体组合, 包括: 使用联合学习模型分别从所述待处理文本中预测出所述头实体值、 所述尾实体类型和 所述关联关系, 所述联合学习模型是通过序列标注任务和多标签分类任务进 行多任务联合 学习获得的。 3.根据权利要求1所述的方法, 其特征在于, 所述预测出所述待处理文本对应的多个实 体组合, 包括: 使用序列 标注模型从所述待处理文本 中预测出所述头实体值和所述尾实体类型, 并使 用多标签分类模型 预测出所述关联关系。 4.根据权利要求1所述的方法, 其特征在于, 在所述对所述头实体值、 所述关联关系、 所 述尾实体 类型和所述待处 理文本进行编码之前, 还 包括: 对所述多个实体组合进行筛 选, 获得筛 选后的实体组合; 从所述筛 选后的实体组合中解析 出所述头实体值、 所述关联关系和所述尾实体 类型。 5.根据权利要求4所述的方法, 其特征在于, 所述实体组合还包括: 所述头实体值对应 的头实体 类型; 所述对所述多个实体组合进行筛 选, 获得筛 选后的实体组合, 包括: 针对所述多个实体组合中的每个实体组合, 判断该实体组合中的头实体类型、 尾实体 类型和所述关联关系是否满足预设模式约束, 所述预设模式约束中是预先设置的头实体类 型与尾实体 类型的关联关系约束; 若否, 则将该实体组合从所述多个实体组合中剔除。 6.根据权利要求5所述的方法, 其特征在于, 所述对所述头实体值、 所述关联关系、 所述 尾实体类型和所述待处 理文本进行编码, 包括: 对所述头实体类型、 所述头实体值、 所述关联关系、 所述尾实体类型和所述待处理文本 进行编码。 7.根据权利要求5所述的方法, 其特征在于, 在所述使用所述头实体值、 所述关联关系、 所述尾实体值构建知识图谱之后, 还 包括: 将所述头实体值对应的头实体 类型存储为所述头实体值在所述知识图谱中的属性 值; 和/或, 将所述尾实体值对应的尾实体类型存储为所述尾实体值在所述知识图谱中的 属性值。 8.根据权利要求1所述的方法, 其特征在于, 所述使用所述头实体值、 所述关联关系、 所 述尾实体值构建知识图谱, 包括: 针对所述多个实体组合中的每个实体组合, 将该实体组合中提取出的所述头实体值、权 利 要 求 书 1/2 页 2 CN 115510243 A 2所述关联关系和所述尾实体值构建三元组信息, 获得多个三元组信息; 使用所述多个三元组信息构建所述知识图谱。 9.根据权利要求1 ‑8任一所述的方法, 其特征在于, 所述预测出所述编码文本表示中所 述尾实体 类型对应的尾实体值, 包括: 使用神经网络模型 预测出所述编码文本表示中所述尾实体 类型对应的尾实体值。 10.一种知识图谱构建装置, 其特 征在于, 包括: 实体组合预测模块, 用于获取待处理文本, 并预测出所述待处理文本对应的多个实体 组合, 所述多个实体组合中的每个实体组合包括: 头实体值和尾实体类型, 以及所述头实体 值对应的头实体 类型与所述尾实体 类型之间的关联关系; 编码文本获得模块, 用于对所述头实体值、 所述关联关系、 所述尾实体类型和所述待处 理文本进行编码, 获得编码文本表示; 尾实体值预测模块, 用于预测出所述编码文本表示中所述尾实体类型对应的尾实体 值; 知识图谱构建模块, 用于使用所述头实体值、 所述关联关系、 所述尾实体值构建知识图 谱。 11.一种电子设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理器 可执行的机器可读指 令, 所述机器可读指令被所述处理器执行时执行如权利要求1至9任一 所述的方法。 12.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处 理器运行时执 行如权利要求1至9任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115510243 A 3

.PDF文档 专利 一种知识图谱构建方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识图谱构建方法、装置、电子设备及存储介质 第 1 页 专利 一种知识图谱构建方法、装置、电子设备及存储介质 第 2 页 专利 一种知识图谱构建方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:40:31上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言