全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111665473.X (22)申请日 2021.12.3 0 (71)申请人 北京达佳互联信息技 术有限公司 地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人 吴曙楠 王方舟 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 李娜 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称 一种数据采样方法、 装置、 电子设备及存储 介质 (57)摘要 本公开关于一种数据采样方法、 装置、 电子 设备及存储介质, 包括: 获取原始数据, 其中, 每 个原始数据包括一个指标值及至少一个特征值, 原始数据分为正样本及负样本, 正样本的指标值 大于预设阈值, 负样本的指标值不大于预设阈 值; 根据负样本的指标值, 将负样本分为多个群 组; 计算每个群组中负样本的特征值与正样本的 特征值之间的差异值; 根据差异值, 将群组分为 困难群组及非困难群组; 对非困难群组进行分层 采样, 得到非困难样本, 并将正样本、 困难群组 中 的负样本及非困难样本作为原始数据的采样结 果。 这样, 在采样过程中, 不需要对全数量的原始 数据进行处理, 因此需要消耗的计算资源较少, 耗时较少。 权利要求书2页 说明书12页 附图3页 CN 114444576 A 2022.05.06 CN 114444576 A 1.一种数据采样方法, 其特 征在于, 包括: 获取原始数据, 其中, 每个原始数据包括一个指标值及至少一个特征值, 所述原始数据 分为正样本及负样本, 所述正样本的指标值大于预设阈值, 所述负样本的指标值不大于所 述预设阈值; 根据所述负 样本的指标值, 将所述负 样本分为多个 群组; 计算每个群组中负 样本的特 征值与所述 正样本的特 征值之间的差异值; 根据所述差异值, 将所述群组分为困难群组及非困难群组; 对所述非困难群组进行分层采样, 得到非困难样本, 并将所述正样本、 所述困难群组中 的负样本及所述非困难样本作为所述原 始数据的采样结果。 2.根据权利要求1所述的数据采样方法, 其特征在于, 所述根据所述负样本的指标值, 将所述负 样本分为多个 群组, 包括: 根据所述负 样本的指标值及预设 分组规则, 将所述负 样本分为多个 群组; 或, 根据所述负样本的指标值, 对所述负样本进行等值分段, 将所述负样本分为预设数量 个群组。 3.根据权利要求1所述的数据采样方法, 其特征在于, 所述计算每个群组中负样本的特 征值与所述 正样本的特 征值之间的差异值, 包括: 计算所述任一群组中各个负 样本的任一特 征值的第一统计参数; 计算所述 正样本的所述任一特 征值的第二统计参数; 计算所述第 一统计参数与 所述第二统计参数之间的欧氏距离, 得到所述任一群组的所 述任一特 征值与所述 正样本的所述任一特 征值之间的目标差异值; 对所述目标差异值求均值, 并对均值结果进行归一化, 得到所述任一群组中负样本的 特征值与所述 正样本的特 征值之间的差异值。 4.根据权利要求3所述的数据采样方法, 其特征在于, 所述第 一统计参数及所述第 二统 计参数包括以下任意 一项或多 项: 均值、 方差、 25分位数、 5 0分位数以及75分位数。 5.根据权利要求3所述的数据采样方法, 其特征在于, 所述对所述目标差异值求均值, 并对均值结果进 行归一化, 得到所述任一群组中负样本的特征值与所述正样本的特征值之 间的差异值, 包括: 根据每个特征值的预设权重, 对所述目标差异值进行加权求均值, 并对均值结果进行 归一化, 得到所述任一群组中负 样本的特 征值与所述 正样本的特 征值之间的差异值。 6.根据权利要求1所述的数据采样方法, 其特征在于, 所述根据所述差异值, 将所述群 组分为困难群组及非困难群组, 包括: 根据所述差异值由大到小的顺序, 对所述群组进行排序, 并基于排序结果绘制所述群 组的二阶差分曲线; 将所述二阶差分曲线的倒序第一个峰值 点对应的群组的差异值作为筛 选阈值; 将所述差异值小于所述筛选 阈值的群组作为困难群组, 将所述差异值不小于所述筛选 阈值的群组作为非困难群组。 7.一种数据采样装置, 其特 征在于, 包括: 获取单元, 被配置为执行获取原始数据, 其中, 每个原始数据包括一个指标值及至少一权 利 要 求 书 1/2 页 2 CN 114444576 A 2个特征值, 所述原始数据分为正样本及负样本, 所述正样 本的指标值大于预设阈值, 所述负 样本的指标值 不大于所述预设阈值; 分组单元, 被配置为执 行根据所述负 样本的指标值, 将所述负 样本分为多个 群组; 计算单元, 被配置为执行计算每个群组中负样本的特征值与 所述正样本的特征值之间 的差异值; 筛选单元, 被配置为执 行根据所述差异值, 将所述群组分为困难群组及非困难群组; 采样单元, 被配置为执行对所述非困难群组进行分层采样, 得到非困难样本, 并将所述 正样本、 所述困难群组中的负 样本及所述非困难样本作为所述原 始数据的采样结果。 8.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至6中任一项所述的数 据采样方法。 9.一种计算机可读存储介质, 其特征在于, 当所述计算机可读存储介质中的指令由数 据采样电子 设备的处理器执行时, 使得数据采样电子 设备能够执行如权利要求 1至6中任一 项所述的数据采样方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1 ‑6任一项所述的数据采样方法。权 利 要 求 书 2/2 页 3 CN 114444576 A 3
专利 一种数据采样方法、装置、电子设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:43
上传分享
举报
下载
原文档
(597.4 KB)
分享
友情链接
ISO 52000-3 2023 Energy performance of buildings — Overarching EPB assessment — Part 3 General principles for determination and reporting of primary energy factors (PEF) and CO2 emission coefficients.pdf
ISO 11892 2024 Space systems Subsystems or units to spacecraft interface control document.pdf
ISO 14130 1997 Fibre-reinforced plastic composites — Determination of apparent interlaminar shear strength by short-beam method.pdf
ISO ASTM 51900 2023 Guidance for dosimetry for radiation research.pdf
ISO 725 2009 ISO inch screw threads — Basic dimensions.pdf
ISO 5690-2-1984Equipment for distributing fertilizers. Test methods. Part 2_Fertilizer distributors (1).pdf
ISO 16610-31 2016 Geometrical product specifications (GPS) — Filtration — Part 31 Robust.pdf
ISO 37301-2021 合规管理体系要求及使用指南(中文版).pdf
ISO 5647 2019 Paper and board — Determination of titanium dioxide content.pdf
ISO 22400-1 2014 Automation systems and integration — Key performance indicators (KPIs) for manufacturing operations management — Part 1 Overview, concepts and terminology.pdf
GB-T 20283-2020 信息安全技术 保护轮廓和安全目标的产生指南.pdf
GB-T 38406-2019 皮革化学品 合成鞣剂中鞣质含量的测定.pdf
GB-T 42177-2022 加氢站氢气阀门技术要求及试验方法.pdf
GB-T 12615.4-2004 封闭型平圆头抽芯铆钉 51级.pdf
GB-T 20082-2006 液压传动 液体污染 采用光学显微镜测定颗粒污染度的方法.pdf
GB-T 38174-2019 风能发电系统 风力发电场可利用率.pdf
GB-T 1621-2008 工业氯化铁.pdf
GB-T 9695.23-2008 肉与肉制品 羟脯氨酸含量测定.pdf
GB-Z 29638-2013 电气-电子-可编程电子安全相关系统的功能安全 功能安全概念及GB-T 20438系列概况.pdf
GB-T 7065-1997 纺织品 色牢度试验 耐热水色牢度.pdf
1
/
3
18
评价文档
赞助2元 点击下载(597.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。