专利 一种模型训练方法和相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210427939.0 (22)申请日 2022.04.22 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人弓静　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 专利代理师林志鹏 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种模型训练方法和相关装置 (57)摘要本申请实施例公开了一种模型训练方法和相关装置，至少涉及人工智能模型中的机器学习，确定待训练模型包括的m个张量与n个并行进程之间的对应关系， m个张量包括在n个张量集合中，每个张量集合包括m个张量中的部分张量， n 个张量集合与n个并行进程的对应关系为一一对应关系，使得每个并行进程只维护部分张量。目标并行进程与目标张量具有对应关系，在进行迭代的过程中，目标并行进程仅基于目标张量更新待训练模型的参数，根据更新后的参数训练待训练模型。不仅降低了创建临时缓存的数量，还降低了临时缓存的频繁创建和释放产生的内存碎片。由此，通过每个并行进程至维护部分张量，降低了激活层内存、临时缓存等，进而降低了模型的显存占用。权利要求书2页说明书13页附图7页 CN 115114927 A 2022.09.27 CN 115114927 A 1.一种模型训练方法，其特征在于，所述方法包括：确定待训练模型包括的m个张量与n个并行进程之间的对应关系；其中，所述m个张量包括在n个张量集合中，每个张量集合包括所述m个张量中的部分张量，所述n个张量集合与所述n个并行进程的对应关系为一一对应关系，所述张量为所述待训练模型包括的多层网络的输入和输出， m和n 为大于1的整数；针对所述n个并行进程中的目标并行进程，基于与所述目标并行进程具有对应关系的目标张量集合更新所述待训练模型的参数；根据更新后的参数训练所述待训练模型。 2.根据权利要求1所述的方法，其特征在于，所述基于与所述目标并行进程具有对应关系的目标张量集合更新所述待训练模型的参数，包括：基于与所述目标并行进程具有对应关系的目标张量集合进行第i次前向传播和第i次反向传播；根据所述多个并行进程在所述第 i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度，确定针对所述目标张量的规约梯度；根据所述规约梯度更新所述待训练模型的参数。 3.根据权利要求2所述的方法，其特征在于，所述根据所述规约梯度更新所述待训练模型的参数，包括：调用自适应矩估计优化器更新所述规约梯度对应的目标参数；根据所述目标参数获取所述待训练模型更新后的参数。 4.根据权利要求2所述的方法，其特征在于，所述根据所述多个并行进程在所述第i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度，确定针对所述目标张量的规约梯度，包括：获取所述多个并行进程在所述第 i次反向传播过程中得到的针对所述目标张量集合所包括的目标张量的多个梯度；根据所述多个梯度的梯度总和与梯度数量，确定针对所述目标张量的规约梯度。 5.根据权利要求1所述的方法，其特征在于，所述确定待训练模型包括的m个张量与n个并行进程之间的对应关系，包括：确定待训练模型包括的m个张量的元素总数；根据所述元素总数将所述m个张量划分为 n个张量集合；确定所述 n个张量集合与n个并行进程之间的一一对应关系。 6.根据权利要求1 ‑5任意一项所述的方法，其特征在于，所述方法还包括；在更新所述待训练模型的参数的过程中，所述目标并行进程更新其他待训练模型的参数，所述其他待训练模型为与所述待训练模型不同的模型。 7.一种模型训练装置，其特征在于，所述装置包括：确定单元、更新单元和训练单元；所述确定单元，用于待训练模型包括的m个张量与n个并行进程之间的对应关系；其中，所述m个张量包括在n个张量集合中，每个张量集合包括所述m个张量中的部分张量，所述n 个张量集合与所述n个并行进程的对应关系为一一对应关系，所述张量为所述待训练模型包括的多层网络的输入和输出， m和n 为大于1的整数；所述更新单元，用于针对所述n个并行进程中的目标并行进程，基于与所述目标并行进权　利　要　求　书 1/2 页 2 CN 115114927 A 2程具有对应关系的目标张量集合更新所述待训练模型的参数；所述训练单元，用于根据更新后的参数训练所述待训练模型。 8.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行权利要求1 ‑6任意一项所述的方法。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1 ‑6任意一项所述的方法。 10.一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1‑6任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115114927 A 3

专利 一种模型训练方法和相关装置

专利一种模型训练方法和相关装置