(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111672452.0
(22)申请日 2021.12.31
(71)申请人 浙江大华 技术股份有限公司
地址 310051 浙江省杭州市滨江区滨安路
1187号
(72)发明人 郭徽 李先飞 王龙 陈立力
周明伟
(74)专利代理 机构 杭州华进联浙知识产权代理
有限公司 3 3250
专利代理师 周长梅
(51)Int.Cl.
G06F 16/2455(2019.01)
G06F 16/25(2019.01)
G06F 16/901(2019.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
(54)发明名称
数据对标方法、 图神经网络模 型训练方法和
计算机设备
(57)摘要
本申请涉及一种数据对 标方法、 图神经网络
模型训练方法和计算机设备。 方法包括: 获取待
对标数据表, 从待对 标数据表中提取原始数据信
息, 原始数据信息包括字段来源和字段描述, 确
定预设的图结构数据; 图结构数据根据历史字段
来源、 历史字段描述以及与历史字段来源对应的
标准数据元构建, 根据字段来源、 字段描述和预
设的图结构数据, 得到与原始数据信息对应的目
标数据元, 采用本方法提高了数据对标准确性。
权利要求书3页 说明书12页 附图4页
CN 114461679 A
2022.05.10
CN 114461679 A
1.一种数据对标 方法, 其特 征在于, 所述方法包括:
获取待对标 数据表;
从所述待对标数据表中提取原始数据信 息, 所述原始数据信 息包括字段来源和字段描
述;
确定预设的图结构数据; 所述图结构数据根据历史字段来源、 历史字段描述以及与所
述历史字段来源 对应的标准数据元构建;
根据所述字段来源、 所述字段描述和所述预设的图结构数据, 得到与所述原始数据信
息对应的目标 数据元。
2.根据权利要求1所述的方法, 其特征在于, 通过下述方式确定所述预设的图结构数
据:
获取历史数据表;
从所述历史数据表中提取样本数据信 息; 所述样本数据信 息包括历史字段来源和历史
字段描述;
获取与所述样本数据信息对应的标准数据元;
从与所述样本数据信息对应的标准数据元中获取历史标准字段名称;
根据所述历史字段来源、 所述历史字段描述、 所述历史标准字段名称以及与所述样本
数据信息对应的标准数据元间的转移关系, 确定所述预设的图结构数据。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述历史字段来源、 所述历史字
段描述、 所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的转移关
系, 确定所述预设的图结构数据, 包括:
将所述历史字段来源、 所述历史字段描述、 所述历史标准字段名称以及与所述样本数
据信息对应的标准数据元间的转移关系转 化为初始图结构数据;
根据所述初始图结构数据训练图神经网络模型, 得到训练后的图神经网络模型; 所述
训练后的图神经网络模型包括所述预设的图结构数据。
4.根据权利要求3所述的方法, 其特征在于, 所述将所述历史字段来源、 所述历史字段
描述、 所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的转移关系转
化为初始图结构数据, 之后还 包括:
将所述初始图结构数据输入特征提取模型, 得到所述初始图结构数据中各个节点对应
的向量;
根据所述初始图结构数据中各个节点对应的向量训练图神经网络模型, 得到训练后的
图神经网络模型; 所述训练后的图神经网络模型包括所述预设的图结构数据。
5.根据权利要求2所述的方法, 其特征在于, 所述历史数据表的数量至少为两个, 至少
两个所述历史数据表包括第一待训练数据表;
所述方法还 包括:
根据所述第一待训练数据表, 确定第一图结构数据;
根据所述第一图结构数据训练图神经网络模型, 得到数据对标第一预测结果; 所述数
据对标第一预测结果 为与所述第一待训练数据表对应的预测数据元;
获取与所述第一待训练数据表对应的标准数据元;
根据所述数据对标第一预测结果以及与所述一待训练数据表对应的标准数据元获取权 利 要 求 书 1/3 页
2
CN 114461679 A
2损失值;
根据所述损失值对所述图神经网络模型的参数进行更新, 得到更新后的图神经网络模
型。
6.根据权利要求5所述的方法, 其特征在于, 至少两个所述历史数据表还包括第 二待训
练数据表:
所述得到更新后的图神经网络模型, 之后包括:
根据所述第二待训练数据表, 确定第二图结构数据;
根据所述第 二图结构数据训练所述更新后的图神经网络模型, 得到数据对标第 二预测
结果; 所述数据对标第二预测结果 为与所述第二待训练数据表对应的预测数据元。
7.根据权利要求1所述的方法, 其特征在于, 所述待对标数据表中包括多个原始数据信
息;
所述方法还 包括:
使用所述预设的图结构数据得到与每 个所述原 始数据信息对应的目标 数据元;
获取与每 个所述原 始数据信息对应的标准数据元;
根据每个所述目标数据元中的第一标识信息以及每个所述标准数据元的第二标识信
息, 确定所述预设的图结构数据预测标准数据元的准确率。
8.根据权利要求1所述的方法, 其特征在于, 所述根据所述字段来源、 所述字段描述和
预设的图结构数据, 得到与所述原 始数据信息对应的目标 数据元, 包括:
根据所述字段来源、 所述字段描述和预设的图结构数据, 得到与所述原始数据信息对
应的多个预测数据元;
获取原始数据信息对应的标准数据元;
分别将每个所述预测数据元与所述标准数据 元进行比较, 得到每个所述预测数据 元对
应的对标准确率;
根据每个所述预测数据 元对应的对标准确率, 得到与 所述原始数据信 息对应的目标数
据元。
9.一种图神经网络模型训练方法, 其特 征在于, 所述方法包括:
获取历史数据表;
从所述历史数据表中提取样本数据信 息; 所述样本数据信 息包括历史字段来源和历史
字段描述;
获取与所述样本数据信息对应的标准数据元;
从与所述样本数据信息对应的标准数据元中获取历史标准字段名称;
将所述历史字段来源、 所述历史字段描述、 所述历史标准字段名称以及与所述样本数
据信息对应的标准数据元间的关系转换为初始图结构数据;
根据所述初始图结构数据训练所述图神经网络模型。
10.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处 理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行权 利 要 求 书 2/3 页
3
CN 114461679 A
3
专利 数据对标方法、图神经网络模型训练方法和计算机设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:51:04上传分享