专利 一种模型训练方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211391056.5 (22)申请日 2022.11.08 (71)申请人腾讯科技（深圳）有限公司地址 518064 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人姜允执　黄新昊　万乐　徐志鹏　顾子卉　谢宇轩　刘林韬　郑规　殷俊　邓大付　欧阳卓能　金鼎健　廖明翔　刘总波　梁宇宁　官冰权　杨益浩　申家忠　刘思亮　高丽娜　漆舒汉　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 专利代理师罗晓敏(51)Int.Cl. G06N 3/06(2006.01) G06K 9/62(2022.01) A63F 13/55(2014.01) (54)发明名称一种模型训练方法及相关装置 (57)摘要本申请实施例公开了一种人工智能领域的模型训练方法及相关装置，其中该方法包括：获取技巧样本数据；技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列，游戏状态数据序列和操作数据序列对应目标帧长度；采用监督学习算法，根据技巧样本数据，联合训练变分自编码器和先验策略模型；变分自编码器包括编码器和解码器，编码器用于将操作数据序列映射为技巧向量，解码器用于根据技巧向量重建操作数据序列；先验策略模型用于根据游戏状态数据序列确定技巧向量；采用强化学习算法，训练根据先验策略模型和解码器构建的游戏AI 模型。该方法能够减少游戏AI模型训练所需的训练数据，并且减少游戏AI模型训练所需投入的人力。权利要求书3页说明书21页附图5页 CN 115496191 A 2022.12.20 CN 115496191 A 1.一种模型训练方法，其特征在于，所述方法包括：获取技巧样本数据；所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操作数据序列，所述游戏状态数据序列和所述操作数据序列对应目标帧长度；采用监督学习算法，根据所述技巧样本数据，联合训练变分自编码器和先验策略模型；所述变分自编码器包括编码器和解码器，所述编码器用于将操作数据序列映射为技巧向量，所述解码器用于根据所述技巧向量重建操作数据序列；所述先验策略模型用于根据游戏状态数据序列确定技巧向量；采用强化学习算法，训练游戏人工智能模型；所述游戏人工智能模型是基于所述先验策略模型和所述解码器构建的。 2.根据权利要求1所述的方法，其特征在于，所述采用监督学习算法，根据所述技巧样本数据，联合训练变分自编码器和先验策略模型，包括：通过所述变分自编码器中的所述编码器，根据所述技巧样本数据中的所述操作数据序列，确定第一技巧向量；通过所述变分自编码器中的所述解码器，根据所述第一技巧向量，确定重建操作数据序列；通过所述先验策略模型，根据所述技巧样本数据中的所述游戏状态数据序列，确定第二技巧向量；根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异，训练所述变分自编码器和所述先验策略模型。 3.根据权利要求2所述的方法，其特征在于，所述根据所述重建操作数据序列与所述操作数据序列之间的差异、以及所述第二技巧向量与所述第一技巧向量之间的差异，训练所述变分自编码器和所述先验策略模型，包括：根据所述重建操作数据序列与所述操作数据序列之间的差异，构建第一损失函数；根据所述第二技巧向量与所述第一技巧向量之间的差异，构建第二损失函数；根据所述第一损失函数和所述第二损失函数，确定综合损失函数；基于所述综合损失函数，调整所述变分自编码器的模型参数和所述先验策略模型的模型参数。 4.根据权利要求1所述的方法，其特征在于，所述采用监督学习算法，根据所述技巧样本数据，联合训练变分自编码器和先验策略模型，包括：通过所述变分自编码器，根据所述技巧样本数据中的所述操作数据序列，确定重建操作数据序列；根据所述重建操作数据序列与所述操作数据序列之间的差异，训练所述变分自编码器；通过所述先验策略模型，根据所述技巧样本数据中的所述游戏状态数据序列，确定第三技巧向量；根据所述第三技巧向量与第四技巧向量之间的差异，训练所述先验策略模型；所述第四技巧向量是满足训练结束条件的所述变分自编码器中的编码器根据所述技巧样本数据中的操作数据序列确定的。 5.根据权利要求1所述的方法，其特征在于，所述采用强化学习算法，训练游戏人工智能模型，包括：采用强化学习算法，训练所述游戏人工智能模型中的残差模型；所述游戏人工智能模型中包括所述先验策略模型、所述残差模型以及所述解码器，所述残差模型用于确定对于权　利　要　求　书 1/3 页 2 CN 115496191 A 2所述先验策略模型输出的技巧向量的修正量。 6.根据权利要求5所述的方法，其特征在于，所述采用强化学习算法，训练所述游戏人工智能模型中的残差模型，包括：获取训练游戏环境中的训练游戏状态数据序列；通过所述先验策略模型，根据所述训练游戏状态数据序列，确定基础技巧向量；通过所述残差模型，根据所述训练游戏状态数据序列，确定修正量；通过所述解码器，根据所述基础技巧向量和所述修正量，确定预测操作数据序列；控制所述训练游戏环境中的虚拟角色执行所述预测操作数据序列指示的动作序列，获取所述虚拟角色执行所述动作序列时产生的游戏状态变化数据；通过奖励函数，根据所述游戏状态变化数据确定目标奖励值；基于所述目标奖励值，训练所述残差模型。 7.根据权利要求6所述的方法，其特征在于，所述获取所述虚拟角色执行所述动作序列时产生的游戏状态变化数据，包括：获取所述动作序列中各个动作各自对应的游戏状态变化数据，组成游戏状态变化数据序列；所述动作对应的游戏状态变化数据用于表征所述虚拟角色执行所述动作后游戏状态的变化情况；所述通过奖励函数，根据所述游戏状态变化数据确定目标奖励值，包括：通过所述奖励函数，确定所述游戏状态变化数据序列中每个所述游戏状态变化数据对应的奖励值；根据所述游戏状态变化数据序列中各个所述游戏状态变化数据各自对应的奖励值，确定所述目标奖励值。 8.根据权利要求6所述的方法，其特征在于，所述基于所述目标奖励值，训练所述残差模型，包括：根据所述预测操作数据序列与基础操作数据序列之间的差异，确定损失函数修正系数；所述基础操作数据序列是所述解码器根据所述基础技巧向量确定的；采用近端策略优化算法，根据所述损失函数修正系数和所述目标奖励值，构建目标损失函数；基于所述目标损失函数，调整所述残差模型的模型参数。 9.根据权利要求1所述的方法，其特征在于，所述采用强化学习算法，训练游戏人工智能模型，包括：采用强化学习算法，训练所述游戏人工智能模型中的所述先验策略模型；所述游戏人工智能模型用于通过所述先验策略模型根据游戏状态数据序列确定技巧向量，以及通过所述解码器根据所述技巧向量确定操作数据序列。 10.根据权利要求1所述的方法，其特征在于，所述获取技巧样本数据，包括：获取游戏示例数据；所述游戏示例数据中包括在训练游戏对局中产生的原始游戏状态数据序列和原始操作数据序列；按照所述目标帧长度，对所述游戏示例数据中的所述原始游戏状态数据序列和所述原始操作数据序列分别进行切分处理，得到具有对应关系的所述游戏状态数据序列和所述操作数据序列，利用所述游戏状态数据序列和所述操作数据序列组成所述技巧样本数据。 11.根据权利要求10所述的方法，其特征在于，所述游戏示例数据包括所述原始游戏状权　利　要　求　书 2/3 页 3 CN 115496191 A 3

专利 一种模型训练方法及相关装置

专利一种模型训练方法及相关装置