全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210427939.0 (22)申请日 2022.04.22 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 弓静  (74)专利代理 机构 深圳市深佳知识产权代理事 务所(普通 合伙) 44285 专利代理师 林志鹏 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种模型训练方法和相关装置 (57)摘要 本申请实施例公开了一种模型训练方法和 相关装置, 至少涉及人工智能模型中的机器学 习, 确定待训练模型包括的m个张量与n个并行进 程之间的对应关系, m个张量包括在n个张量集合 中, 每个张量集合包括m个张量中的部分张量, n 个张量集合与n个并行进程的对应 关系为一一对 应关系, 使得每个并行进程只维护部分张量。 目 标并行进程与目标张量具有对应关系, 在进行迭 代的过程中, 目标并行进程仅基于目标张量更新 待训练模型的参数, 根据更新后的参数训练待训 练模型。 不仅降低了创建临时缓存的数量, 还降 低了临时缓存的频繁创建和释放产生的内存碎 片。 由此, 通过每个并行进 程至维护部分张量, 降 低了激活层内存、 临时缓存等, 进而降低了模型 的显存占用。 权利要求书2页 说明书13页 附图7页 CN 115114927 A 2022.09.27 CN 115114927 A 1.一种模型训练方法, 其特 征在于, 所述方法包括: 确定待训练模型包括的m个张量与n个并行进程之间的对应关系; 其中, 所述m个张量包 括在n个张量集合中, 每个张量集合包括所述m个张量中的部 分张量, 所述n个张量集合与所 述n个并行进程的对应关系为一一对应关系, 所述张量为所述待训练模型包括的多层 网络 的输入和输出, m和n 为大于1的整数; 针对所述n个并行进程中的目标并行进程, 基于与所述目标并行进程具有对应关系的 目标张量 集合更新所述待训练模型的参数; 根据更新后的参数训练所述待训练模型。 2.根据权利要求1所述的方法, 其特征在于, 所述基于与 所述目标并行进程具有对应关 系的目标张量 集合更新所述待训练模型的参数, 包括: 基于与所述目标并行进程具有对应关系的目标张量集合进行第i次前向传播和第i次 反向传播; 根据所述多个并行进程在所述第 i次反向传播过程中得到的针对所述目标张量集合所 包括的目标张量的多个梯度, 确定针对所述目标张量的规约梯度; 根据所述 规约梯度更新所述待训练模型的参数。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述规约梯度更新所述待训练模 型的参数, 包括: 调用自适应矩估计优化器更新所述 规约梯度对应的目标参数; 根据所述目标参数获取 所述待训练模型 更新后的参数。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个并行进程在所述第i次 反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度, 确定针对所 述目标张量的规约梯度, 包括: 获取所述多个并行进程在所述第 i次反向传播过程中得到的针对所述目标张量集合所 包括的目标张量的多个梯度; 根据所述多个梯度的梯度总和与梯度数量, 确定针对所述目标张量的规约梯度。 5.根据权利要求1所述的方法, 其特征在于, 所述确定待训练模型包括的m个张量与n个 并行进程之间的对应关系, 包括: 确定待训练模型包括的m个张量的元 素总数; 根据所述元 素总数将所述m个张量划分为 n个张量集合; 确定所述 n个张量集合与n个并行进程之间的一 一对应关系。 6.根据权利要求1 ‑5任意一项所述的方法, 其特 征在于, 所述方法还 包括; 在更新所述待训练模型的参数的过程中, 所述目标并行进程更新其他待训练模型的参 数, 所述其他待训练模型为与所述待训练模型不同的模型。 7.一种模型训练装置, 其特 征在于, 所述装置包括: 确定单 元、 更新单 元和训练单 元; 所述确定单元, 用于待训练模型包括的m个张量与n个并行进程之间的对应关系; 其中, 所述m个张量包括在n个张量集合中, 每个张量集合包括所述m个张量中的部分张量, 所述n 个张量集合与所述n个并行进程的对应关系为一一对应关系, 所述张量为所述待训练模型 包括的多层网络的输入和输出, m和n 为大于1的整数; 所述更新单元, 用于针对所述n个并行进程中的目标并行进程, 基于与所述目标并行进权 利 要 求 书 1/2 页 2 CN 115114927 A 2程具有对应关系的目标张量 集合更新所述待训练模型的参数; 所述训练单 元, 用于根据更新后的参数训练所述待训练模型。 8.一种计算机设备, 其特 征在于, 所述设备包括处 理器以及存 储器: 所述存储器用于存 储程序代码, 并将所述 程序代码传输给 所述处理器; 所述处理器用于根据所述 程序代码中的指令执 行权利要求1 ‑6任意一项所述的方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 程序, 所述计算机程序用于执 行权利要求1 ‑6任意一项所述的方法。 10.一种包括指令的计算机程序产品, 当其在计算机上运行时, 使得所述计算机执行权 利要求1‑6任意一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115114927 A 3

.PDF文档 专利 一种模型训练方法和相关装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型训练方法和相关装置 第 1 页 专利 一种模型训练方法和相关装置 第 2 页 专利 一种模型训练方法和相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。