全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210027728.8 (22)申请日 2022.01.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 朱杰 王燕蒙 王少军  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 代理人 杨晖琼 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/186(2020.01) G06F 40/295(2020.01) G06K 9/62(2022.01)G06N 5/02(2006.01) (54)发明名称 种子数据 的扩充方法、 装置、 计算机设备及 存储介质 (57)摘要 本申请实施例属于大数据领域和人工智能 技术领域, 涉及一种种子数据的扩充方法, 包括 接收种子 数据, 从种子数据中提取符合预设条件 的种子三元 组; 在开放领域知识库中召回同族三 元组; 提取所述种子三元组中的种子关系字符串 以及同族三元组中的同族关系字符串; 确定种子 关系字符串以及同族关系字符串的同属类别属 性, 并以同属类别属性作为召回关系字符串, 召 回三元组; 通过预训练的实体识别模 型识别是否 符合预定义图谱模式; 若是, 则将召回三元组并 入所述种子数据。 本申请还提供一种种子数据的 扩充装置、 计算机设备及存储介质。 此外, 本申请 还涉及区块链 技术, 知识图谱扩充后的种子数据 可存储于区块链中。 本申请完成对种子数据的扩 充。 权利要求书3页 说明书14页 附图3页 CN 114357194 A 2022.04.15 CN 114357194 A 1.一种种子数据的扩充方法, 其特 征在于, 所述方法包括下述 步骤: 接收种子数据, 从所述种子数据中提取符合预设条件的种子三元组, 其中, 所述种子三 元组包括种子第一实体、 种子关系字符串以及种子第二实体, 所述种子关系字符串将所述 种子第一实体与所述种子第二实体建立了关系; 在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族 三元组, 其中, 所述同族三元组包括同族第一实体、 同族第二实体以及同族关系字符串; 提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关 系字符串; 确定所述种子关系字符串以及所述同族关系字符串的同属类别属性, 并以所述同属类 别属性作为召回关系字符串, 召回开放领域知识库中应用所述召回关系字符串的类别属性 的召回三元组, 其中, 所述召回三元 组包括召回关系字 符串、 召回第一 实体以及召回第二 实 体; 通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合 预定义图谱 模式; 在识别到所述召回第 一实体以及所述召回第 二实体符合预定义图谱模式时, 将所述召 回三元组并入所述种子数据。 2.根据权利要求1所述的种子数据的扩充方法, 其特征在于, 所述从所述种子数据中提 取符合预设条件的种子三元组的步骤 包括: 判别种子数据中符合预设条件的种子实体; 根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串 进行提取, 并将提取的种子实体及种子关系字符串设置为种子三元组。 3.根据权利要求2所述的种子数据的扩充方法, 其特征在于, 所述判别种子数据中符合 预设条件的种子实体的步骤 包括: 将种子数据中的文本语料分割为句子; 获得名词的词性, 根据名词的词性探测句子中的种子实体; 提取符合预设条件的名词 词组块和种子实体。 4.根据权利要求1所述的种子数据的扩充方法, 其特征在于, 在所述在开放领域知识库 中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组, 其中, 所述同族 三元组包括同族第一实体、 同族第二实体以及同族关系字符串的步骤之后还 包括: 判断所述同族关系字符串是否存在两组及两组以上同一同族关系字符串的三元组; 如是, 删除所述同族三元组; 如否, 则执行所述提取所述种子三元组中的所述种子关系字符串以及所述同族三元组 中的所述同族关系字符串的步骤。 5.根据权利要求1所述的种子数据的扩充方法, 其特征在于, 所述确定所述种子关系字 符串以及所述同族关系字符串的同属类别属性, 并以所述同属类别属性作为扩充后的召回 关系字符串的步骤具体包括: 获取所述种子关系字符串所属的类别属性以及所述同族关系字符串所属的类别属性; 以覆盖原则确定能够同时包含所述种子关系字符串所属的类别属性与所述同族关系 字符串所属的类别属性同属的同属类别属性;权 利 要 求 书 1/3 页 2 CN 114357194 A 2以所述同属类别属性作为扩充后的召回关系字符串。 6.根据权利要求1所述的种子数据的扩充方法, 其特征在于, 所述通过预训练 的实体识 别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式的步骤之 前, 还包括: 挖掘所述种子第 一实体的第 一实体种子数据, 以及所述种子第 二实体的第 二实体种子 数据; 根据所述第一实体种子数据与所述第二实体种子数据构建实体识别模型。 7.根据权利要求6所述的种子数据的扩充方法, 其特征在于, 所述挖掘所述种子第 一实 体的第一实体种子数据, 以及所述种子第二实体的第二实体种子数据的步骤具体包括: 将所述种子第 一实体按第 一比例分为所述种子第 一实体的第 一训练集、 第 二比例分为 所述种子第一实体的第一测试集, 将所述种子第二实体的按第一比例分为所述种子第二 实 体的第二训练集、 第二比例分为所述种子第二实体的第二测试集; 预处理所述第一训练集以及所述第二训练集; 定义所述第 一训练集内所述种子第 一实体的数据类型与第 一标签, 及定义所述第 二训 练集内所述种子第二实体的数据类型与第二标签; 建立所述种子第 一实体的数据类型与所述第 一标签的第 一关系, 所述种子第 二实体的 数据类型与所述第二标签的第二关系; 将所述第一关系回归所述第 一测试集中进行数据挖掘, 所述第 二关系回归所述第 二测 试集中进行 数据挖掘; 获取所述第 一测试集中的种子第 一实体的第 一实体种子数据, 所述第 二测试集中的种 子第二实体的第二实体种子数据。 8.一种种子数据的扩充装置, 其特 征在于, 包括: 接收模块, 接收种子数据, 从所述种子数据中提取符合预设条件的种子三元组, 其中, 所述种子三元组包括种子第一实体、 种子关系字符串以及种子第二实体, 所述种子关系字 符串将所述种子第一实体与所述种子第二实体建立了关系; 寻同模块, 在开放领域知识库中召回具有相同所述种子第 一实体以及所述种子第 二实 体的同族三元组, 其中, 所述同族三元组包括同族第一 实体、 同族第二 实体以及同族关系字 符串; 提取模块, 提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所 述同族关系字符串; 扩充模块, 确定所述种子关系字符串以及所述同族关系字符串的同属类别属性, 并以 所述同属类别属性作为召回关系字符串, 召回开放领域知识库中应用所述召回关系字符串 的类别属性的召回三元组, 其中, 所述召回三元 组包括召回关系字 符串、 召回第一 实体以及 召回第二实体; 识别模块, 通过预训练 的实体识别模型识别所述召回第 一实体以及所述召回第 二实体 是否符合预定义图谱 模式; 并入模块, 在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式 时, 将所述召回三元组并入所述种子数据。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机可权 利 要 求 书 2/3 页 3 CN 114357194 A 3

.PDF文档 专利 种子数据的扩充方法、装置、计算机设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 种子数据的扩充方法、装置、计算机设备及存储介质 第 1 页 专利 种子数据的扩充方法、装置、计算机设备及存储介质 第 2 页 专利 种子数据的扩充方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。