全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211198272.8 (22)申请日 2022.09.29 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 杨迪 汪少敏  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 专利代理师 曹蓓 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 模型训练方法、 装置和存 储介质 (57)摘要 本公开提出一种模型训练方法、 装置和存储 介质, 涉及机器学习技术领域。 本公开的一种模 型训练方法包括: 获取利用测试样 本数据测试分 类模型的测试结果, 其中, 测试样本数据包括至 少两类测试样本; 根据测试结果确定对测试样本 数据中至少一类样本的抽样比例; 和根据抽样比 例在测试样 本数据中抽样, 将抽样样本并入训练 样本数据集, 以便根据训练样 本数据集对分类模 型进行下一轮训练。 通过这样的方法, 能够实现 样本抽样比率的动态变化, 提高模型训练速度, 也提高被训练的模型的准确度。 权利要求书3页 说明书10页 附图3页 CN 115481753 A 2022.12.16 CN 115481753 A 1.一种模型训练方法, 包括: 获取利用测试样本数据测试分类模型的测试结果, 其中, 所述测试样本数据包括至少 两类测试样本; 根据所述测试 结果确定对所述测试样本数据中至少一类样本的抽样比例; 和 根据所述抽样比例在所述测试样本数据中抽样, 将抽样样本并入训练样本数据集, 以 便根据所述训练样本数据集对所述分类模型进行 下一轮训练。 2.根据权利要求1所述的方法, 其中, 所述根据所述测试结果确定对所述测试样本数据 中至少一类样本的抽样比例包括: 根据所述测试样本数据和所述测试结果确定训练结果参数, 所述训练结果参数包括测 试样本数据的总数量, 以及至少一类测试样本的数量和对应类测试样本中测试结果正确的 样本的数量; 和 根据所述训练结果 参数确定对所述测试样本数据中至少一类样本的抽样比例。 3.根据权利要求2所述的方法, 其中, 所述根据所述训练结果参数确定对所述测试样本 数据中至少一类样本的抽样比例包括: 根据所述训练结果 参数确定 至少一类样本的样本平衡度指标; 根据所述样本平衡度和预定平衡度阈值确定所述样本平衡度所属的范围; 和 根据所述样本平衡度所属的范围调整抽样比例, 包括: 在所述样本平衡度位于第一预 定范围的情况下, 提高所述抽样比例, 在所述样本平衡度位于第二预定范围的情况下, 降低 所述抽样率, 在所述样本平衡度第三预定范围的情况 下, 保持所述抽样比例不变。 4.根据权利要求1所述的方法, 其中, 所述根据所述测试结果确定对所述测试样本数据 中至少一类样本的抽样比例包括: 根据所述测试结果确定第一类测试样本的第一抽样比 例; 所述根据所述抽样比例在所述测试样本数据中抽样, 并入训练样本数据集包括: 在所述第一类测试样本中抽取第一抽样比例的样本; 和 将抽取的样本并入所述训练样本数据集。 5.根据权利要求1~4任意 一项所述的方法, 其中, 所述根据 所述测试结果确定对所述测试样本数据中至少一类样本的抽样比例包括: 根 据所述测试结果确定第二类测试样本中测试结果为正确的样本的第二抽样比例和第二类 测试样本中测试 结果为错误的样本的第三抽样比例; 所述根据所述抽样比例在所述测试样本数据中抽样, 并入训练样本数据集包括: 在所述第二类测试样本 中测试结果为正确的样本中抽取第 二抽样比例的样本, 在所述 第二类测试样本中测试 结果为错误的样本中抽取第三抽样比例的样本; 和 将抽取的样本并入所述训练样本数据集。 6.根据权利要求1~4任意 一项所述的方法, 其中, 根据所述测试结果确定训练结果参数包括: 根据所述测试结果, 确定测试样本数据的 总数量和第一类测试样本的数量; 所述根据所述训练结果参数确定对所述测试样本数据中至少一类样本的抽样比例包 括: 根据所述训练结果 参数确定第一类测试样本的数量占测试样本总数量的第一比值;权 利 要 求 书 1/3 页 2 CN 115481753 A 2根据所述第 一比值、 第 一类测试样本的历史样本偏离度和第 一类测试样本的历史样本 波动度, 确定第一样本平衡度指标; 和 根据所述第一样本平衡度指标确定在第一类测试样本中的抽样比例。 7.根据权利要求5所述的方法, 其中, 所述根据所述测试结果确定训练结果参数包括: 根据所述测试结果, 确定测试样本数 据的总数量和第二类测试样本中测试 结果为正确的样本数量; 所述根据所述训练结果参数确定对所述测试样本数据中至少一类样本的抽样比例包 括: 根据所述训练结果参数确定第二类测试样本中测试结果为正确的样本数量占测试样 本总数量的第二比值; 根据所述第 二比值、 第 二类测试样本 中测试结果为正确的样本的历史样本偏离度和第 二类测试样本中测试 结果为正确的样本的历史样本波动度, 确定第二样本平衡度指标; 和 根据所述第二样本平衡度指标确定在第二类测试样本中测试结果为正确的样本中的 抽样比例。 8.根据权利要求7 所述的方法, 其中, 所述根据所述测试结果确定训练结果参数还包括: 根据所述测试结果, 确定第二类测 试样本中测试 结果为错误的样本数量; 所述根据所述训练结果参数确定对所述测试样本数据中至少一类样本的抽样比例还 包括: 根据所述训练结果参数确定第二类测试样本中测试结果为错误的样本数量占测试样 本总数量的第三比值; 根据所述第 三比值、 第 二类测试样本 中测试结果为错误的样本的历史样本偏离度和第 二类测试样本中测试结果为错误的样本的测试样本的历史样本波动度, 确定第三样本平衡 度指标; 和 根据所述第三样本平衡度指标确定在第二类测试样本中测试结果为错误的样本中的 抽样比例。 9.根据权利要求6所述的方法, 其中, 所述训练结果参数还包括第 一类测试样本 中测试 结果正确的样本数量; 还包括: 存储所述训练结果参数作为历史数据, 以便生成所述历史样本偏离度和历史 样本波动度。 10.根据权利要求9所述的方法, 其中, 所述训练结果参数还包括第二类测试样本的样 本数量。 11.根据权利要求6所述的方法, 其中, 所述第一类测试样本的历史样本偏离度为根据 前序一轮或多轮模型测试中, 第一类测试样本中验证正确的样本数量占第一类测试样本中 样本数量的比值确定, 其中, 每完成一轮模型训练执 行一轮模型测试; 和 所述第一类测试样本的历史样本波动 为根据在前序一轮或多轮模型测试中, 每一轮的 所述第一类测试样本的数量的变化比率和 测试结果正确度变化比率确定 。 12.根据权利要求7 所述的方法, 其中, 第二类测试样本 中测试结果为正确的样本的历史样本偏离度为: 根据 前序一轮或多轮权 利 要 求 书 2/3 页 3 CN 115481753 A 3

.PDF文档 专利 模型训练方法、装置和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、装置和存储介质 第 1 页 专利 模型训练方法、装置和存储介质 第 2 页 专利 模型训练方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:13:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。