全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210692730.7 (22)申请日 2022.06.17 (71)申请人 上海健交科技 服务有限责任公司 地址 200331 上海市普陀区绥德路379弄 15 号203室 (72)发明人 不公告发明人   (74)专利代理 机构 上海泰能知识产权代理事务 所(普通合伙) 3123 3 专利代理师 宋缨 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/2455(2019.01) G06F 17/18(2006.01) (54)发明名称 一种源数据层数据收集处 理方法和装置 (57)摘要 本发明涉及一种源数据层数据收集处理方 法和装置, 方法包括: 步骤(1): 读取不同格式的 数据记录; 步骤(2): 按数据收集规则对所述不同 格式的数据记录进行匹配, 将匹配成功的字段输 出并存储; 其中, 数据收集规则包括: 基于关键词 的数据收集规则; 步骤(3): 根据所述匹配成功的 字段计算匹配完成后数据记录的匹配度数值, 并 根据所述匹配度数值分析数据记录的质量。 本发 明能够有效对源 数据进行采集, 并将 源数据经过 预设规则处理后使其格式基本统一, 并能够有效 分析数据记录的质量。 权利要求书1页 说明书3页 附图1页 CN 115525699 A 2022.12.27 CN 115525699 A 1.一种源数据层数据收集处 理方法, 其特 征在于, 包括: 步骤(1): 读取不同格式的数据记录; 步骤(2): 按数据收集规则对所述不同格 式的数据记录进行匹配, 将匹配成功的字段输 出并存储; 其中, 数据收集 规则包括: 基于关键词的数据收集 规则; 步骤(3): 根据 所述匹配成功的字段计算匹配完成后数据记录的匹配度数值, 并根据所 述匹配度数值分析 数据记录的质量。 2.根据权利要求1所述的源数据层数据收集处理方法, 其特征在于, 所述步骤(3)中的 根据所述匹配成功的字段计算匹配完成后数据记录的匹配度数值, 具体为: 根据所述匹配 成功字段的数量 来计算匹配度数值。 3.根据权利要求2所述的源数据层数据收集处理方法, 其特征在于, 所述步骤(3)中的 根据所述匹配度数值分析数据 记录的质量, 具体为: 若匹配度数值大于预设阈值, 则表明数 据质量满足收集处理要求; 若匹配度数值小于预设阈值, 则表明数据质量不满足收集处理 要求。 4.根据权利要求1所述的源数据层数据收集处理方法, 其特征在于, 所述步骤(3)之后 还包括: 步骤(4): 根据所述数据质量调整数据收集规则, 具体为: 增加关键词数量、 减少关键词 数量和/或更改关键词种类。 5.一种源数据层数据收集处 理装置, 其特 征在于, 包括: 读取模块: 用于读取不同格式的数据记录; 匹配模块: 用于按数据收集规则对所述不同格式的数据记录进行匹配, 将匹配成功 的 字段输出并存 储; 其中, 数据收集 规则包括: 基于关键词的数据收集 规则; 计算与分析模块: 用于根据 所述匹配成功的字段计算匹配完成后数据记录的匹配度 数 值, 并根据所述匹配度数值分析 数据记录的质量。 6.根据权利要求5所述的源数据层数据收集处理装置, 其特征在于, 所述计算与分析模 块中的根据所述匹配成功的字段计算匹配完成后数据记录的匹配度数值, 具体为: 根据所 述匹配成功字段的数量 来计算匹配度数值。 7.根据权利要求6所述的源数据层数据收集处理装置, 其特征在于, 所述计算与分析模 块中的根据所述匹配度数值分析数据 记录的质量, 具体为: 若匹配度数值大于预设阈值, 则 表明数据质量满足收集处理要求; 若匹配度数值小于预设阈值, 则表明数据质量不满足收 集处理要求。 8.根据权利要求5所述的源数据层数据收集处理装置, 其特征在于, 所述计算与分析模 块之后还 包括: 步骤(4): 根据所述数据质量调整数据收集规则, 具体为: 增加关键词数量、 减少关键词 数量和/或更改关键词种类。权 利 要 求 书 1/1 页 2 CN 115525699 A 2一种源数据层数据收集 处理方法和装置 技术领域 [0001]本发明涉及数据收集处理技术领域, 特别是涉及 一种源数据层数据收集处理方法 和装置。 背景技术 [0002]在多项业务并存的系统环境中, 不 同业务系统中数据输出很难做到统一, 造成数 据记录格式很难完全相同; 不同格式的数据 记录汇聚至数据仓库中容易引起数据 表存储的 数据格式混乱, 对后期的数据处 理造成困扰, 同时增 加了处理的难度。 [0003]在现有的各种数据收集方法中, 将不 同系统中的数据记录打包进行汇集, 在数据 集中后进行二次处 理后再次转储。 [0004]虽然现有方法在数据收集时简化了收集的步骤, 但是增加了后期数据治理的难 度, 并且在收集时无法评估收集批次中数据的质量。 发明内容 [0005]本发明所要解决的技术问题是提供一种源数据层数据收集处理方法和装置, 能够 有效对源数据进行采集, 并将源数据经过预设规则处理后使其格式基本统一, 并能够有效 分析数据记录的质量。 [0006]本发明解决其技术问题所采用的技术方案是: 提供一种源数据层数据收集处理方 法, 包括: [0007]步骤(1): 读取不同格式的数据记录; [0008]步骤(2): 按数据收集规则对所述不同格式的数据记录进行匹配, 将匹配成功的字 段输出并存 储; 其中, 数据收集 规则包括: 基于关键词的数据收集 规则; [0009]步骤(3): 根据所述匹配成功的字段计算匹配完成后数据记录的匹配度数值, 并根 据所述匹配度数值分析 数据记录的质量。 [0010]所述步骤(3)中的根据所述匹配成功的字段计算匹配完成后数据记录的匹配度数 值, 具体为: 根据所述匹配成功字段的数量 来计算匹配度数值。 [0011]所述步骤(3)中的根据所述匹配度数值分析数据记录的质量, 具体为: 若匹配度数 值大于预设阈值, 则表明数据质量满足收集处理要求; 若匹配度数值小于预设阈值, 则表明 数据质量 不满足收集处 理要求。 [0012]所述步骤(3)之后还 包括: [0013]步骤(4): 根据所述数据质量调整数据收集规则, 具体为: 增加关键词数量、 减少关 键词数量和/或更改关键词种类。 [0014]本发明解决其技术问题所采用的技术方案是: 提供一种源数据层数据收集处理装 置, 包括: [0015]读取模块: 用于读取不同格式的数据记录; [0016]匹配模块: 用于按数据收集规则对所述不 同格式的数据记录进行匹配, 将匹配成说 明 书 1/3 页 3 CN 115525699 A 3

PDF文档 专利 一种源数据层数据收集处理方法和装置

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种源数据层数据收集处理方法和装置 第 1 页 专利 一种源数据层数据收集处理方法和装置 第 2 页 专利 一种源数据层数据收集处理方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。