说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210289264.8 (22)申请日 2022.03.23 (71)申请人 讯飞智元信息科技有限公司 地址 230088 安徽省合肥市高新区望江西 路666号讯飞大厦8层-10层 (72)发明人 张友国 贾若然 谭昶 吕军 胡少云 冯翔 刘江 姜殿洪 宋薇薇 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 侯珊 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 增加训练数据的方法、 相关设备及可读存储 介质 (57)摘要 本申请公开了一种增加训练数据的方法、 相 关设备及可读存储介质。 本方案中, 利用训练数 据集对第一模型进行训练, 得到第二模型; 确定 第二模型对训练数据集中各训练数据的预测结 果; 确定训练数据集中与预测结果为错误的训练 数据相似的训练数据作为要增加的训练数据, 将 其添加至训练数据集中, 生成新的训练数据集。 由于模型对预测结果为正确的训练数据对应情 形的特征学习的较好, 对预测结果为错误的训练 数据对应情形的特征学习不够, 因此, 在本申请 中从候选数据集中确定与预测结果为错误的数 据相似的候选数据作为要增加的训练数据, 能够 准确覆盖模 型学习较差的情形, 使得深度学习模 型能够快速 达到较好的效果。 权利要求书2页 说明书9页 附图3页 CN 114757263 A 2022.07.15 CN 114757263 A 1.一种增 加训练数据的方法, 其特 征在于, 所述方法包括: 获取训练数据集、 第一模型和候选数据集; 利用所述训练数据集对所述第一模型进行训练, 得到第二模型; 将所述训练数据集中的各训练数据输入所述第 二模型, 得到所述第 二模型对所述训练 数据集中各训练数据的预测结果; 基于所述第 二模型对所述训练数据集中各训练数据的预测结果, 从所述候选数据集中 确定要增 加的训练数据; 所述要增 加的训练数据与预测结果 为错误的训练数据相似; 将所述要增 加的训练数据添加至所述训练数据集中, 生成新的训练数据集。 2.根据权利要求1所述的方法, 所述基于所述第二模型对所述训练数据集中各训练数 据的预测结果, 从所述 候选数据集中确定要增 加的训练数据, 包括: 对所述训练数据集进行聚类, 得到多个类以及每个类的聚类中心和聚类半径; 每个类 对应至少一个训练数据; 从各个类中确定正类, 所述正类对应的训练数据中, 预测结果为正确的训练数据所占 比例满足预设条件; 针对所述候选数据集中的每个候选数据, 计算所述候选数据与每个正类的聚类中心的 距离; 基于所述候选数据与各个正类的聚类中心的距离, 和, 各个正类的聚类半径, 确定所 述候选数据是否与预测结果为错误的训练数据相似; 如果所述候选数据与预测结果为错误 的训练数据相似, 则将所述 候选数据确定为要增 加的训练数据。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述训练数据集进行聚类, 得到多 个类以及每 个类的聚类中心和聚类半径, 包括: 确定所述训练数据集中各训练数据的特 征表示; 基于所述训练数据集中各训练数据的特征表示, 对所述训练数据集进行聚类, 得到多 个类以及每 个类的聚类中心和聚类半径。 4.根据权利要求3所述的方法, 其特征在于, 所述确定所述训练数据集中各训练数据的 特征表示, 包括: 将所述训练数据集中各训练数据输入所述第 二模型, 所述第 二模型输出所述训练数据 集中各训练数据的特 征表示。 5.根据权利要求2所述的方法, 其特征在于, 计算所述候选数据与每个正类的聚类 中心 的距离, 包括: 确定所述 候选数据集中各个候选数据的特 征表示; 计算所述候选数据的特征表示与每个正类的聚类中心的距离, 作为所述候选数据与每 个正类的聚类中心的距离 。 6.根据权利要求5所述的方法, 其特征在于, 所述确定所述候选数据集中各个候选数据 的特征表示, 包括: 将所述候选数据集中各个候选数据输入所述第 二模型, 所述第 二模型输出所述候选数 据集中各个候选数据的特 征表示。 7.根据权利要求2所述的方法, 其特征在于, 所述基于所述候选数据与 各个正类的聚类 中心的距离, 和, 各个正类的聚类 半径, 确定所述候选数据是否与预测结果为错误的训练数 据相似, 包括:权 利 要 求 书 1/2 页 2 CN 114757263 A 2针对每个正类, 判断所述候选数据与所述正类的聚类中心的距离是否小于预设倍数的 所述正类的聚类半径; 如果不存在候选数据与正类的聚类中心的距离小于预设倍数的聚类半径的正类, 则确 定所述候选数据与预测结果 为错误的训练数据相似。 8.一种增 加训练数据的装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取训练数据集、 第一模型和候选数据集; 训练单元, 用于利用所述训练数据集对所述第一模型进行训练, 得到第二模型; 预测结果确定单元, 用于将所述训练数据集中的各训练数据输入所述第二模型, 得到 所述第二模型对所述训练数据集中各训练数据的预测结果; 要增加的训练数据确定单元, 用于基于所述第 二模型对所述训练数据集中各训练数据 的预测结果, 从所述候选数据集中确定要增加的训练数据; 所述要增加的训练数据与预测 结果为错误的训练数据相似; 训练数据增加单元, 用于将所述要增加的训练数据添加至所述训练数据集中, 生成新 的训练数据集。 9.一种增 加训练数据的设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1至7中任一项所述的增加训练数据 的方法的各个步骤。 10.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时, 实现如权利要求1至7中任一项所述的增 加训练数据的方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 114757263 A 3
专利 增加训练数据的方法、相关设备及可读存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 14:36:35
上传分享
举报
下载
原文档
(692.4 KB)
分享
友情链接
T-CIATCM 030.9—2019 中医临床护理信息基本数据集 第9部分:消毒供应中心记录.pdf
GB-T 3883.1-2014 手持式、可移式电动工具和园林工具的安全 第1部分:通用要求.pdf
奇安信2023年第二版-电子数据司法鉴定典型案例集.pdf
T-CACM 1352—2021 慢性溃疡气虚毒滞证诊断标准.pdf
GB-T 42002-2022 跨境电子商务交易类产品信息多语种描述 智能手机.pdf
GB-T 9074.32-2017 螺栓或螺钉和锥形弹性垫圈组合件.pdf
GB-T 10000-2023 中国成年人人体尺寸.pdf
T-CESA 1255—2023 智慧博物馆评价方法.pdf
DB32- 4148-2021 燃煤电厂大气污染物排放标准 江苏省.pdf
GB-T 25068.2-2020 信息技术 安全技术 网络安全 第2部分:网络安全设计和实现指南.pdf
DB11-T 2046.3-2022 智慧停车系统技术要求 第3部分:停车场 (库)管理模块 北京市.pdf
GB-T 36957-2018 信息安全技术 灾难恢复服务要求.pdf
GB-T 33658-2017 室内人体热舒适环境要求与评价方法.pdf
GB-T 2611-2022 试验机 通用技术要求.pdf
GB-T 706-2016 热轧型钢.pdf
GB-T 22342-2022 石油天然气钻采设备 井下安全阀系统设计、安装、操作、试验和维护.pdf
GB-T 34944-2017 Java语言源代码漏洞测试规范.pdf
GB-T 4734-2022 日用陶瓷材料及制品化学分析方法.pdf
GB-T 38548.2-2020 内容资源数字化加工 第2部分:采集方法.pdf
GB-T 30428.3-2016 数字化城市管理信息系统 第3部分:地理编码.pdf
1
/
3
15
评价文档
赞助2元 点击下载(692.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。