全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211291397.5 (22)申请日 2022.10.19 (71)申请人 北京鼎泰智源科技有限公司 地址 100096 北京市海淀区清河小营西小 口路27号西三旗文化科技园D座A8区 二层2001 (72)发明人 高强  (74)专利代理 机构 北京君莫知识产权代理事务 所(普通合伙) 11715 专利代理师 王凝 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种基于投票打 分的数据清洗方法及装置 (57)摘要 本发明公开了一种基于投票打分的数据清 洗方法及装置。 其中, 该方法包括: 获取源数据流 和第一数据清洗策略; 根据打分信息将所述第一 数据清洗策略进行拆分, 得到目标清洗策略; 将 所述目标清洗策略与所述源数据流进行交互操 作, 得到第二清洗策略; 根据所述第二清洗策略 对所述源数据流进行清洗操作, 得到目标数据 流。 本发明解决了现有技术中的大数据平台数据 清洗工作仅仅是通过固定的清洗规则或者清洗 算法对大数据平台获取到的数据进行计算和处 理, 无法在多元化需求的情况之下灵活利用清晰 规则, 分段或者分项进行清洗, 导致清洗过程过 于死板, 不灵活, 降低了清洗效率的技 术问题。 权利要求书2页 说明书9页 附图2页 CN 115543986 A 2022.12.30 CN 115543986 A 1.一种基于投票打 分的数据清洗方法, 其特 征在于, 包括: 获取源数据流和第一数据清洗策略; 根据打分信息将所述第一数据清洗策略进行拆分, 得到目标清洗策略; 将所述目标清洗策略与所述源数据流进行交 互操作, 得到第二清洗策略; 根据所述第二清洗策略对所述源数据流进行清洗操作, 得到目标 数据流。 2.根据权利要求1所述的方法, 其特征在于, 所述获取源数据流和第 一数据清洗策略包 括: 根据清洗需求 提取所述源数据流; 将所述清洗需求进行关键词转 化, 得到所述第一数据清洗策略。 3.根据权利要求1所述的方法, 其特征在于, 在所述根据打分信 息将所述第 一数据清洗 策略进行拆分, 得到目标清洗策略之前, 所述方法还 包括: 根据投票信息将所有投票分数进行汇总, 得到所述打 分信息; 将所述打分信 息中超过预设阈值的策略数据与 所述第一数据清洗策略进行匹配, 得到 拆分后的所述 目标清洗策略, 其中, 所述 目标清洗策略包括了超过所述预设阈值的全部投 票打分清洗项目。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述目标清洗策略与所述源数据流 进行交互操作, 得到第二清洗策略包括: 所述交互操作通过公式: 将所述目标清洗策略一一与所述源数据流进行对比, 得到整合后的所述第二清洗策 略, 其中, r是清洗策略, n_samples是源数据流均匀被采样数, w和h代表目标清洗策略和 源 数据流的数据参数, pi代 表 π。 5.一种基于投票打 分的数据清洗装置, 其特 征在于, 包括: 获取模块, 用于获取源数据流和第一数据清洗策略; 拆分模块, 用于根据打 分信息将所述第一数据清洗策略进行拆分, 得到目标清洗策略; 交互模块, 用于将所述目标清洗策略与所述源数据流进行交互操作, 得到第二清洗策 略; 清洗模块, 用于根据所述第二清洗策略对所述源数据流进行清洗操作, 得到目标数据 流。 6.根据权利要求5所述的装置, 其特 征在于, 所述获取模块包括: 提取单元, 用于根据清洗需求 提取所述源数据流; 转化单元, 用于将所述清洗需求进行关键词转 化, 得到所述第一数据清洗策略。 7.根据权利要求5所述的装置, 其特 征在于, 所述装置还 包括: 汇总模块, 用于根据投票信息将所有投票分数进行汇总, 得到所述打 分信息; 匹配模块, 用于将所述打分信 息中超过预设阈值的策略数据与 所述第一数据清洗策略 进行匹配, 得到拆分后的所述目标清洗策略, 其中, 所述目标清洗策略包括了超过所述预设 阈值的全部投票打 分清洗项目。 8.根据权利要求5所述的装置, 其特 征在于, 所述交 互模块包括:权 利 要 求 书 1/2 页 2 CN 115543986 A 2交互单元, 用于所述交 互操作通过公式: 将所述目标清洗策略一一与所述源数据流进行对比, 得到整合后的所述第二清洗策 略, 其中, r是清洗策略, n_samples是源数据流均匀被采样数, w和h代表目标清洗策略和 源 数据流的数据参数, pi代 表 π。 9.一种非易失性存储介质, 其特征在于, 所述非易失性存储介质包括存储的程序, 其 中, 所述程序运行时控制非易 失性存储介质所在的设备执行权利要求 1至4中任意一项所述 的方法。 10.一种电子装置, 其特征在于, 包含处理器和存储器; 所述存储器中存储有计算机可 读指令, 所述处理器用于运行所述计算机可读指 令, 其中, 所述计算机可读指 令运行时执行 权利要求1至4中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115543986 A 3

.PDF文档 专利 一种基于投票打分的数据清洗方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于投票打分的数据清洗方法及装置 第 1 页 专利 一种基于投票打分的数据清洗方法及装置 第 2 页 专利 一种基于投票打分的数据清洗方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:48:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。