专利结合RPA及AI的知识图谱构建方法、装置、终端及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210244305.1 (22)申请日 2022.03.14 (71)申请人来也科技（北京）有限公司地址 100080 北京市海淀区丹棱街3号B座 17层1-43单元 (72)发明人门波　张海雷　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人杜月 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/08(2006.01) (54)发明名称结合RPA及AI的知识图谱构建方法、装置、终端及存储介质 (57)摘要本申请涉及计算机技术领域，尤其涉及一种结合RPA及AI的知识图谱构建方法、装置、终端及存储介质。一种结合RPA及AI的知识图谱构建方法，包括：获取针对知识图谱构建功能所输入的数据集合；通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，第一实体对应至少一个称呼信息；对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。采用本申请，可以提高知识图谱构建的准确性，可以提高用户的使用体验。权利要求书3页说明书22页附图8页 CN 114328980 A 2022.04.12 CN 114328980 A 1.一种结合RPA及AI的知识图谱构建方法，其特征在于，包括：获取针对知识图谱构建功能所输入的数据集合；通过机器人流程自动化RPA系统，采用三元组抽取技术获取所述数据集合中至少一个数据对应的三元组信息集合；采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；对所述三元组信息子集中各三元组信息进行合并，构建所述数据集合对应的知识图谱。 2.根据权利要求1所述的方法，其特征在于，所述采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，包括：获取所述三元组信息集合中至少一个三元组信息之间的关系信息；采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集。 3.根据权利要求2所述的方法，其特征在于，所述同一实体对应至少一个称呼信息，所述采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集，包括：基于所述关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，所述第一称呼信息为所述至少一个称呼信息中任一称呼信息，所述第二称呼信息为至少一个称呼信息中除所述第一称呼信息之外的任一称呼信息；获取所述第一称呼信息对应的第一三元组信息子集，获取所述第二称呼信息对应的第二三元组信息子集；基于第一深度学习模型、所述第一三元组信息子集和所述第二三元组信息子集，获取所述第一实体对应的三元组信息子集。 4.根据权利要求1所述的方法，其特征在于，所述同一称呼信息对应至少一个实体，所述采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，包括：获取所述三元组信息集合中所述同一称呼信息对应的至少一个三元组信息，所述同一称呼信息对应至少一个实体；获取所述至少一个三元组信息之间的关系信息；采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取所述至少一个实体中各实体对应的三元组信息子集。 5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：获取训练样本数据和验证样本数据；采用所述训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型；采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型。 6.根据权利要求5所述的方法，其特征在于，所述第二深度学习模型为预训练的语言表征Bert模型，所述第三深度学习模型为实体对齐Base模型，所述采用所述训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型，包括：采用所述训练样本数据对所述预训练的语言表征Bert模型进行训练，得到所述实体对权　利　要　求　书 1/3 页 2 CN 114328980 A 2齐Base模型。 7.根据权利要求5所述的方法，其特征在于，在所述采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型之后，还包括：获取所述第一深度学习模型对应的公共语言规范CLS编码信息；将所述CLS编码信息替换成令牌to ken编码信息。 8.根据权利要求5所述的方法，其特征在于，在所述采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型之后，还包括：采用所述第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集；获取所述第一正样本数据子集对应的第一数据数量，获取所述第一负样本数据子集对应的第二数据数量；若所述第一数据数量和所述第二数据数量的比值不满足第一比值条件，则对所述第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型。 9.根据权利要求8所述的方法，其特征在于，在所述获取所述正样本数据子集对应的第一数据数量之后，还包括：若所述第一数据数量小于数量阈值，则对所述第一正样本数据子集中的各数据进行数据增强处理。 10.根据权利要求8所述的方法，其特征在于，所述对所述第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型，包括：对所述第一深度学习模型中的损失函数FocalLoss进行权重参数的修改，得到修改后的第一深度学习模型；采用所述修改后的第一深度学习模型在所述第二数据集合中重新获取所述第二实体对应的第二正样本数据子集和第二负样本数据子集；获取所述第二正样本数据子集对应的第三数据数量，获取所述第二负样本数据子集对应的第四数据数量；若所述第三数据数量和所述第四数据数量的比值满足第二比值条件，则停止对所述修改后的第一深度学习模型的修改，并存储所述修改后的第一深度学习模型。 11.一种结合RPA及AI的知识图谱构建装置，其特征在于，包括：集合获取单元，用于获取针对知识图谱构建功能所输入的数据集合；所述集合获取单元，还用于通过机器人流程自动化RPA系统，采用三元组抽取技术获取所述数据集合中至少一个数据对应的三元组信息集合；信息获取单元，用于采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；图谱构建单元，用于对所述三元组信息子集中各三元组信息进行合并，构建所述数据集合对应的知识图谱。 12.根据权利要求11所述的装置，其特征在于，所述信息获取单元，用于采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集时，具体用于：获取所述三元组信息集合中至少一个三元组信息之间的关系信息；权　利　要　求　书 2/3 页 3 CN 114328980 A 3

专利 结合RPA及AI的知识图谱构建方法、装置、终端及存储介质

专利结合RPA及AI的知识图谱构建方法、装置、终端及存储介质