全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210012186.7 (22)申请日 2022.01.04 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 胡彪 杨云森 魏旭 刘方然  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 代理人 高明翠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于无监督学习的实体清洗方法及系 统 (57)摘要 本申请公开了一种基于无监督学习的实体 清洗方法及系统, 涉及实体清洗技术领域。 具体 实现方案为: 构造正训练样本和负训练样本, 根 据正训练样本和负训练样本训练预训练语言模 型, 得到精准的语言模型; 获取知识图谱中的同 名实体, 将同名实体输入语言模型, 得到第一编 码数据和第二编码数据; 拼接第三编码数据和第 四编码数据, 得到同名实体的第五编码数据; 计 算任意两个第五编码数据的余弦相似度得到相 似度数据, 对比计算后的相似度数据和预设的相 似度阈值, 判断是否是同一实体, 有益效果在于 不需要每一次判断都将实体信息经过语 言模型, 大大降低了计算消耗量, 提高了实体清洗的速 度。 权利要求书2页 说明书8页 附图1页 CN 114357114 A 2022.04.15 CN 114357114 A 1.一种基于无监 督学习的实体清洗方法, 其特 征在于, 包括以下步骤: 构造正训练样本和负训练样本, 根据 所述正训练样本和所述负训练样本训练预训练语 言模型, 得到精准的语言模型; 获取知识图谱中的同名实体, 将所述同名实体输入所述语言模型, 得到第一编码数据 和第二编码数据; 对所述第一编码数据进行预处理得到第 三编码数据, 对所述第 二编码数据进行预处理 得到第四编码数据, 拼接所述第三编码数据和所述第四编码数据, 得到所述同名实体的第 五编码数据; 计算任意两个所述第五编码数据的余弦相似度得到相似度 数据, 对比计算后的所述相 似度数据和预设的相似度阈值, 判断是否是同一实体。 2.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 构造正训练 样本, 具体包括以下步骤: 从知识图谱中召回同名实体, 根据判别规则识别是否为同一实体, 若是, 构造正训练样 本; 拼接同一实体的不同字段构造正训练样本, 获取同一实体的不同来源构造正训练样 本; 随机丢弃同一实体的信息构造正训练样本, 随机重复同一实体的信息构造正训练样 本。 3.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 构造负训练 样本, 具体包括以下步骤: 从知识图谱中召回同名实体, 根据判别规则识别是否为同一实体, 若否, 构造负训练样 本; 将两个非同名的实体构造负训练样本, 随机更 换同一实体的信息构造负训练样本 。 4.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 根据 所述正 训练样本和所述负训练样本训练预训练语言模型, 得到精准的语言模型, 具体包括以下步 骤: 采用损失函数对训练后的预训练语言模型进行验证, 判断是否为误差范围内的语言模 型; 若超出误差范围, 则根据所述正训练样本和所述负训练样本继续训练所述预训练语言 模型; 若没有超出误差范围, 则结束训练, 得到所述精准的语言模型。 5.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 获取知识图 谱中的同名实体, 将所述同名实体输入 所述语言模 型, 得到第一编 码数据, 具体包括以下步 骤: 选取所述同名实体的至少一个字段信 息输入所述语言模型, 所述语言模型对所述同名 实体的字段信息进行编码, 得到第一编码数据。 6.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 获取知识图 谱中的同名实体, 将所述同名实体输入 所述语言模 型, 得到第二编 码数据, 具体包括以下步 骤: 所述同名实体的语义信 息输入所述语言模型, 所述语言模型对所述同名实体的语义信权 利 要 求 书 1/2 页 2 CN 114357114 A 2息进行编码, 得到第二编码数据。 7.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 对所述第 一 编码数据进行 预处理得到第三编码数据, 具体包括以下步骤: 通过白化操作对所述第一编码数据进行归一 化, 得到第三编码数据。 8.如权利要求1所述的一种基于无监督学习的实体清洗方法, 其特征在于, 对所述第 二 编码数据进行 预处理得到第四编码数据, 具体包括以下步骤: 对所述第二编码数据进行池化操作, 得到第四编码数据。 9.一种基于无监 督学习的实体清洗系统, 其特 征在于, 包括: 训练模块, 用于构造正训练样本和负训练样本, 根据所述正训练样本和所述负训练样 本训练预训练语言模型, 得到精准的语言模型; 第一编码模块, 用于获取知识图谱中的同名实体, 将所述同名实体输入所述语言模型, 得到第一编码数据和第二编码数据; 第二编码模块, 用于对所述第一编码数据进行预处理得到第三编码数据, 对所述第二 编码数据进行预处理得到第四编码数据, 拼接所述第三编码数据和所述第四编码数据, 得 到所述同名实体的第五编码数据; 判断模块, 用于根据所述第五编码数据, 计算任意两个所述第五编码数据的余弦相似 度得到相似度数据, 对比计算后的所述相似度数据和预设的相似度阈值, 判断是否是同一 实体。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 指令, 所述计算机指 令被处理器执行时实现如权利要求 1至8中任一项 所述的基于无监督学 习的实体清洗方法的步骤。权 利 要 求 书 2/2 页 3 CN 114357114 A 3

.PDF文档 专利 一种基于无监督学习的实体清洗方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于无监督学习的实体清洗方法及系统 第 1 页 专利 一种基于无监督学习的实体清洗方法及系统 第 2 页 专利 一种基于无监督学习的实体清洗方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。