专利一种基于无监督学习的实体清洗方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210012186.7 (22)申请日 2022.01.04 (71)申请人新华智云科技有限公司地址 310012 浙江省杭州市西湖区文一西路460号文娱中心43 0室 (72)发明人胡彪　杨云森　魏旭　刘方然　 (74)专利代理机构杭州裕阳联合专利代理有限公司 33289 代理人高明翠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于无监督学习的实体清洗方法及系统 (57)摘要本申请公开了一种基于无监督学习的实体清洗方法及系统，涉及实体清洗技术领域。具体实现方案为：构造正训练样本和负训练样本，根据正训练样本和负训练样本训练预训练语言模型，得到精准的语言模型；获取知识图谱中的同名实体，将同名实体输入语言模型，得到第一编码数据和第二编码数据；拼接第三编码数据和第四编码数据，得到同名实体的第五编码数据；计算任意两个第五编码数据的余弦相似度得到相似度数据，对比计算后的相似度数据和预设的相似度阈值，判断是否是同一实体，有益效果在于不需要每一次判断都将实体信息经过语言模型，大大降低了计算消耗量，提高了实体清洗的速度。权利要求书2页说明书8页附图1页 CN 114357114 A 2022.04.15 CN 114357114 A 1.一种基于无监督学习的实体清洗方法，其特征在于，包括以下步骤：构造正训练样本和负训练样本，根据所述正训练样本和所述负训练样本训练预训练语言模型，得到精准的语言模型；获取知识图谱中的同名实体，将所述同名实体输入所述语言模型，得到第一编码数据和第二编码数据；对所述第一编码数据进行预处理得到第三编码数据，对所述第二编码数据进行预处理得到第四编码数据，拼接所述第三编码数据和所述第四编码数据，得到所述同名实体的第五编码数据；计算任意两个所述第五编码数据的余弦相似度得到相似度数据，对比计算后的所述相似度数据和预设的相似度阈值，判断是否是同一实体。 2.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，构造正训练样本，具体包括以下步骤：从知识图谱中召回同名实体，根据判别规则识别是否为同一实体，若是，构造正训练样本；拼接同一实体的不同字段构造正训练样本，获取同一实体的不同来源构造正训练样本；随机丢弃同一实体的信息构造正训练样本，随机重复同一实体的信息构造正训练样本。 3.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，构造负训练样本，具体包括以下步骤：从知识图谱中召回同名实体，根据判别规则识别是否为同一实体，若否，构造负训练样本；将两个非同名的实体构造负训练样本，随机更换同一实体的信息构造负训练样本。 4.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，根据所述正训练样本和所述负训练样本训练预训练语言模型，得到精准的语言模型，具体包括以下步骤：采用损失函数对训练后的预训练语言模型进行验证，判断是否为误差范围内的语言模型；若超出误差范围，则根据所述正训练样本和所述负训练样本继续训练所述预训练语言模型；若没有超出误差范围，则结束训练，得到所述精准的语言模型。 5.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，获取知识图谱中的同名实体，将所述同名实体输入所述语言模型，得到第一编码数据，具体包括以下步骤：选取所述同名实体的至少一个字段信息输入所述语言模型，所述语言模型对所述同名实体的字段信息进行编码，得到第一编码数据。 6.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，获取知识图谱中的同名实体，将所述同名实体输入所述语言模型，得到第二编码数据，具体包括以下步骤：所述同名实体的语义信息输入所述语言模型，所述语言模型对所述同名实体的语义信权　利　要　求　书 1/2 页 2 CN 114357114 A 2息进行编码，得到第二编码数据。 7.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，对所述第一编码数据进行预处理得到第三编码数据，具体包括以下步骤：通过白化操作对所述第一编码数据进行归一化，得到第三编码数据。 8.如权利要求1所述的一种基于无监督学习的实体清洗方法，其特征在于，对所述第二编码数据进行预处理得到第四编码数据，具体包括以下步骤：对所述第二编码数据进行池化操作，得到第四编码数据。 9.一种基于无监督学习的实体清洗系统，其特征在于，包括：训练模块，用于构造正训练样本和负训练样本，根据所述正训练样本和所述负训练样本训练预训练语言模型，得到精准的语言模型；第一编码模块，用于获取知识图谱中的同名实体，将所述同名实体输入所述语言模型，得到第一编码数据和第二编码数据；第二编码模块，用于对所述第一编码数据进行预处理得到第三编码数据，对所述第二编码数据进行预处理得到第四编码数据，拼接所述第三编码数据和所述第四编码数据，得到所述同名实体的第五编码数据；判断模块，用于根据所述第五编码数据，计算任意两个所述第五编码数据的余弦相似度得到相似度数据，对比计算后的所述相似度数据和预设的相似度阈值，判断是否是同一实体。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求 1至8中任一项所述的基于无监督学习的实体清洗方法的步骤。权　利　要　求　书 2/2 页 3 CN 114357114 A 3

专利 一种基于无监督学习的实体清洗方法及系统

专利一种基于无监督学习的实体清洗方法及系统