全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211391056.5 (22)申请日 2022.11.08 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518064 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 姜允执 黄新昊 万乐 徐志鹏  顾子卉 谢宇轩 刘林韬 郑规  殷俊 邓大付 欧阳卓能  金鼎健  廖明翔 刘总波 梁宇宁 官冰权  杨益浩 申家忠 刘思亮 高丽娜  漆舒汉  (74)专利代理 机构 深圳市深佳知识产权代理事 务所(普通 合伙) 44285 专利代理师 罗晓敏(51)Int.Cl. G06N 3/06(2006.01) G06K 9/62(2022.01) A63F 13/55(2014.01) (54)发明名称 一种模型训练方法及相关装置 (57)摘要 本申请实施例公开了一种人工智能领域的 模型训练方法及相关装置, 其中该方法包括: 获 取技巧样 本数据; 技巧样本数据中包括具有对应 关系的游戏状态数据序列和操作数据序列, 游戏 状态数据序列和操作数据序列对应目标帧长度; 采用监督学习算法, 根据技巧样本数据, 联合训 练变分自编码器和先验策略模型; 变 分自编码器 包括编码器和解码器, 编码器用于将操作数据序 列映射为技巧向量, 解码器用于根据技巧向量重 建操作数据序列; 先验策略模型用于根据游戏状 态数据序列确定技巧向量; 采用强化学习算法, 训练根据先验策略模型和解码器构建的游戏AI 模型。 该方法能够减少游戏AI模型训练所需的训 练数据, 并且减少游戏AI模型训练所需投入的人 力。 权利要求书3页 说明书21页 附图5页 CN 115496191 A 2022.12.20 CN 115496191 A 1.一种模型训练方法, 其特 征在于, 所述方法包括: 获取技巧样本数据; 所述技巧样本数据中包括具有对应关系的游戏状态数据序列和操 作数据序列, 所述游戏状态数据 序列和所述操作数据 序列对应目标帧长度; 采用监督学习算法, 根据 所述技巧样本数据, 联合训练变分自编码器和先验策略模型; 所述变分自编码器包括编码器和解码器, 所述编码器用于将操作数据序列映射为技巧向 量, 所述解码器用于根据所述技巧向量重建操作数据序列; 所述先验策略模型用于根据游 戏状态数据 序列确定技巧向量; 采用强化学习算法, 训练游戏人工智能模型; 所述游戏人工智能模型是基于所述先验 策略模型和所述 解码器构建的。 2.根据权利要求1所述的方法, 其特征在于, 所述采用监督学习算法, 根据所述技巧样 本数据, 联合训练变分自编码器和先验策略模型, 包括: 通过所述变分 自编码器中的所述编码器, 根据所述技巧样本数据中的所述操作数据序 列, 确定第一技巧向量; 通过所述变分自编码器中的所述解码器, 根据所述第一技巧向量, 确定重建操作数据 序列; 通过所述先验策略模型, 根据所述技巧样本数据中的所述游戏状态数据序列, 确定第 二技巧向量; 根据所述重建操作 数据序列与所述操作 数据序列之间的差异、 以及所述第 二技巧向量 与所述第一 技巧向量之间的差异, 训练所述变分自编码器和所述先验策略模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述重建操作 数据序列与所述操 作数据序列之间的差异、 以及所述第二技巧向量与所述第一技巧向量之间的差异, 训练所 述变分自编码器和所述先验策略模型, 包括: 根据所述重建操作数据序列与所述操作数据序列之间的差异, 构建第一损 失函数; 根 据所述第二 技巧向量与所述第一 技巧向量之间的差异, 构建第二损失函数; 根据所述第一损失函数和所述第二损失函数, 确定综合损失函数; 基于所述综合损失函数, 调整所述变分自编码器的模型参数和所述先验策略模型的模 型参数。 4.根据权利要求1所述的方法, 其特征在于, 所述采用监督学习算法, 根据所述技巧样 本数据, 联合训练变分自编码器和先验策略模型, 包括: 通过所述变分自编码器, 根据所述技巧样本数据中的所述操作数据序列, 确定重建操 作数据序列; 根据所述重建操作数据序列与所述操作数据序列之间的差异, 训练所述变分 自编码器; 通过所述先验策略模型, 根据所述技巧样本数据中的所述游戏状态数据序列, 确定第 三技巧向量; 根据所述第三技巧向量与第四技巧向量之 间的差异, 训练所述先验 策略模型; 所述第四技巧向量是满足训练结束条件的所述变分自编码器中的编码器根据所述技巧样 本数据中的操作数据 序列确定的。 5.根据权利要求1所述的方法, 其特征在于, 所述采用强化学习算法, 训练游戏人工智 能模型, 包括: 采用强化学习算法, 训练所述游戏人工智能模型中的残差模型; 所述游戏人工智能模 型中包括所述先验策略模型、 所述残差模型以及所述解码器, 所述残差模型用于确定对于权 利 要 求 书 1/3 页 2 CN 115496191 A 2所述先验策略模型输出的技巧向量的修 正量。 6.根据权利要求5所述的方法, 其特征在于, 所述采用强化学习算法, 训练所述游戏人 工智能模型中的残差模型, 包括: 获取训练游戏环境中的训练游戏状态数据 序列; 通过所述先验策略模型, 根据 所述训练游戏状态数据序列, 确定基础技巧向量; 通过所 述残差模型, 根据所述训练游戏状态数据序列, 确定修正量; 通过所述解码器, 根据所述基 础技巧向量和所述 修正量, 确定预测操作数据 序列; 控制所述训练游戏环境中的虚拟角色执行所述预测操作 数据序列指示的动作序列, 获 取所述虚拟角色执 行所述动作序列时产生的游戏状态变化数据; 通过奖励函数, 根据 所述游戏状态变化数据确定目标奖励值; 基于所述目标奖励值, 训 练所述残差模型。 7.根据权利要求6所述的方法, 其特征在于, 所述获取所述虚拟角色执行所述动作序列 时产生的游戏状态变化数据, 包括: 获取所述动作序列中各个动作各自对应的游戏状态变化数据, 组成游戏状态变化数据 序列; 所述动作对应的游戏状态变化数据用于表征所述虚拟角色执行所述动作后游戏状态 的变化情况; 所述通过奖励函数, 根据所述游戏状态变化数据确定目标 奖励值, 包括: 通过所述奖励函数, 确定所述游戏状态变化数据序列中每个所述游戏状态变化数据对 应的奖励值; 根据所述游戏状态变化数据序列中各个所述游戏状态变化数据各自对应的奖 励值, 确定所述目标 奖励值。 8.根据权利要求6所述的方法, 其特征在于, 所述基于所述目标奖励值, 训练所述残差 模型, 包括: 根据所述预测操作数据序列与基础操作数据序列之间的差异, 确定损失函数修正系 数; 所述基础操作数据 序列是所述解码器根据所述基础技巧向量确定的; 采用近端策略优化算法, 根据所述损 失函数修正系数和所述目标奖励值, 构建目标损 失函数; 基于所述目标损失函数, 调整所述残差模型的模型参数。 9.根据权利要求1所述的方法, 其特征在于, 所述采用强化学习算法, 训练游戏人工智 能模型, 包括: 采用强化学习算法, 训练所述游戏人工智能模型中的所述先验策略模型; 所述游戏人 工智能模型用于通过所述先验策略模型根据 游戏状态数据序列确定技巧向量, 以及通过所 述解码器根据所述 技巧向量确定操作数据 序列。 10.根据权利要求1所述的方法, 其特 征在于, 所述获取技巧样本数据, 包括: 获取游戏示例数据; 所述游戏示例数据中包括在训练游戏对局中产生的原始游戏状态 数据序列和原 始操作数据 序列; 按照所述目标帧长度, 对所述游戏示例数据中的所述原始游戏状态数据序列和所述原 始操作数据序列分别进行切分处理, 得到具有对应关系的所述游戏状态数据序列和所述操 作数据序列, 利用所述游戏状态数据 序列和所述操作数据 序列组成所述 技巧样本数据。 11.根据权利要求10所述的方法, 其特征在于, 所述游戏示例数据包括所述原始游戏状权 利 要 求 书 2/3 页 3 CN 115496191 A 3

.PDF文档 专利 一种模型训练方法及相关装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型训练方法及相关装置 第 1 页 专利 一种模型训练方法及相关装置 第 2 页 专利 一种模型训练方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:42:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。