全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211136980.9 (22)申请日 2022.09.19 (71)申请人 北京三维 天地科技股份有限公司 地址 100000 北京市海淀区西四环北路1 19 号A座3层3 09室 (72)发明人 金震 张京日 穆宇浩  (74)专利代理 机构 北京冠和权律师事务所 11399 专利代理师 陈姣姣 (51)Int.Cl. G06F 16/215(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于知识谱图与机器学习的数据质量 规则推荐方法 (57)摘要 本发明提供了一种基于知识谱图与机器学 习的数据质量规则推荐方法, 包括: 获取历史数 据质量规则数据集; 基于历史数据质量规则数据 集, 生成数据质量规则知识图谱; 根据数据质量 规则知识图谱, 获得数据质量规则与数据物理表 的映射规律; 根据所述映射规律, 获取当前数据 物理表所对应的当前数据质量规则数据集; 基于 预设的机器学习数据质量检查模 型, 生成数据质 量检查方案; 根据所述数据质量检查方案, 检查 当前数据质量规则数据集, 获得数据物理表质量 检查结果; 获取符合用户要求的数据质量检查结 果, 将该数据质量检查结果所对应的数据质量规 则推荐给用户。 本发明将多个规则组合形成物理 表的质量检查方案, 可有效提高数据质量检查方 案的执行过程。 权利要求书3页 说明书9页 附图2页 CN 115543973 A 2022.12.30 CN 115543973 A 1.一种基于知识谱图与机器学习的数据质量 规则推荐方法, 其特 征在于, 包括: S1: 获取历史数据质量 规则数据集; S2: 基于历史数据质量 规则数据集, 生成数据质量 规则知识图谱; S3: 根据数据质量规则知识图谱, 获得数据质量规则与数据物 理表的映射规律; 根据所 述映射规律, 获取当前 数据物理表所对应的当前 数据质量 规则数据集; S4: 基于预设的机器学习数据质量检查模型, 生成数据质量检查方案; 根据所述数据质 量检查方案, 检查当前 数据质量 规则数据集, 获得 数据物理表质量检查结果; S5: 获取符合用户要求的数据质量检查结果, 将该数据质量检查结果所对应的数据质 量规则推荐给用户。 2.根据权利要求1所述的一种基于知识谱图与机器学习的数据质量规则推荐方法, 其 特征在于, S1包括: S101: 设置历史数据质量规则对数据质量进行校核的校核效果值; 所述校核效果值为 衡量数据质量 规则对数据质量进行 校核的标量 参数; S102: 比较全部历史数据质量规则的校核效果值与预设校核效果值的大小; 将校核效 果值大于预设校核效果 值的历史数据质量 规则保留, 生成第一历史数据质量 规则数据集; S103: 将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总, 生成第 二历史数据质量 规则数据集; S104: 获取备用历史数据质量规则数据库, 根据预设的备用匹配条件, 获取与第二历史 数据质量 规则数据集相匹配的第三历史数据质量 规则数据集; S105: 汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集, 生成历史 数据质量 规则数据集。 3.根据权利要求2所述的一种基于知识谱图与机器学习的数据质量规则推荐方法, 其 特征在于, S2包括: S201: 对历史数据质量规则数据集中的历史数据质量规则逐一编码, 生成数据质量规 则编码数据集; S202: 基于数据质量 规则编码数据集, 获取实体、 实体之间的关系以及实体的属性; S203: 根据实体、 实体之间的关系以及实体的属性, 生成实体 ‑实体关系 ‑实体属性的三 元组结构化数据集; S204: 处理三元组结构化数据集, 生成数据质量 规则知识图谱。 4.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, S3包括: S301: 根据数据质量 规则知识图谱, 获取 数据质量 规则与数据物理表的映射 规律; S302: 获取当前数据的物理表特征与级别, 基于数据质量规则与数据物理表的映射规 律, 获得与数据物理表相映射的映射数据质量 规则; S303: 汇总所述映射数据质量 规则,获得当前 数据质量 规则数据集。 5.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, S4包括: S401: 将当前 数据质量 规则数据集划分为训练数据集和 测试数据集; S402: 构建基于逻辑回归的机器学习模型, 采用训练数据集训练该机器学习模型, 并采权 利 要 求 书 1/3 页 2 CN 115543973 A 2用测试数据集测试机器学习模型; S403: 基于测试 过的机器学习模型, 结合数据物理表特 征, 生成数据质量检查方案; S404: 利用数据质量检查方案, 检查当前数据质量规则数据集, 获得数据物理表质量检 查结果。 6.根据权利要求5所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, S40 3包括: S4031: 所述数据质量检查方案包括多个独立、 且可以删减 的子方案, 所述子方案根据 用户的使用要求进行删减处 理; S4032: 执行步骤S4031后, 删 减处理后的子方案归入预设的闲置方案库, 以备误删或再 次使用时进行调用。 7.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, S5包括: S501: 将数据质量检查结果与预设的检查结果阈值进行比较, 若数据质量检查结果大 于预设的检查结果阈值, 则标记所述数据质量检查结果对应的数据质量规则, 生成标记数 据质量规则; S502: 基于预设的评估方法, 对标记数据质量规则进行准确率评估; 所述评估方法包括 设置准确率阈值以及阈值的浮动区间范围, 判断准确率与准确率阈值的差值是否位于所述 浮动区间范围内; S503: 将准确率 位于所述 浮动区间范围内的数据质量 规则推荐给用户。 8.根据权利要求5所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, S402包括测量机器学习模型识别的准确度, 具体步骤为: S4021: 获取正确识别目标类别的第一数据数量; S4022: 获取被错 误识别为目标类别的第二数据数量; S4023: 获取正确识别为非目标类别的第三数据数量; S4024: 获取被错 误识别为非目标类别的第四数据数量; S4025: 对第一数据数量、 第三数据数量求和计算, 得到正确识别数据数量总和; 对第一 数据数量、 第二数据数量、 第三数据数量、 第四数据数量求和计算, 得到全部识别数据数量 总和; 对正确识别数据数量总和、 全部识别数据数量总和求商计算, 得到机器学习模型识别 的准确度。 9.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法, 其特 征在于, 还 包括S6, 生成数据质量检查报告: S601: 获取衡量数据质量的一个或多个核检维度, 以及相对应的核检维度标准; S602: 根据核检维度标准和历史数据质量 规则, 生成第一核检维度报告模板; S603: 根据预设的指导决策评价条件对核检维度报告模板进行衡量, 生成第一评价值; 根据预设的追溯效果评价条件对检维度报告模板进行衡量, 生成第二评价值; 将第一评价 值大于预设第一评价值阈值, 并且第二评价值大于第二预设评价值阈值的核检维度报告模 板保留, 生成第二核检维度报告模板; S604: 基于第二核检维度报告模板, 生成单维度单项报告模板; 汇总多个第二核检维度 报告模板, 生成多维度综合报告模板;权 利 要 求 书 2/3 页 3 CN 115543973 A 3

.PDF文档 专利 一种基于知识谱图与机器学习的数据质量规则推荐方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识谱图与机器学习的数据质量规则推荐方法 第 1 页 专利 一种基于知识谱图与机器学习的数据质量规则推荐方法 第 2 页 专利 一种基于知识谱图与机器学习的数据质量规则推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。