全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111326221.4 (22)申请日 2021.11.10 (71)申请人 杭州海康威视数字技 术股份有限公 司 地址 310051 浙江省杭州市滨江区阡 陌路 555号 (72)发明人 王正伟  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 代理人 项京 高莺然 (51)Int.Cl. G06F 30/20(2020.01) G06N 20/00(2019.01) (54)发明名称 一种智能体的强化学习模型训练方法及系 统 (57)摘要 本发明实施例提供了一种智能体的强化学 习模型训练方法及系统, 上述方法包括: 接收所 述环境服务器发送的任意一个仿真环境包括的 各个智能体的经验数据; 将相关联的智能体的经 验数据进行混合并存储于预设经验池中; 获取混 合后的经验 数据作为样本数据, 并基于所述样本 数据触发待训练强化学习模型的训练, 得到输出 的预测运行策略信息; 将所述预测运行策略信息 发送至所述环 境服务器, 以使所述环 境服务器中 对应的仿真环 境执行对应的预测运行策略; 如果 达到预设的模 型训练结束条件, 将当前的待训练 强化学习模型确定为训练得到的目标强化学习 模型训练。 即本发明实施例提出了一种新的支持 多智能体、 多仿真环境的高效的强化学习模型训 练框架。 权利要求书5页 说明书27页 附图7页 CN 114117752 A 2022.03.01 CN 114117752 A 1.一种智能体的强化学习模型训练方法, 其特征在于, 应用于强化学习模型训练系统 中的中心训练服务器, 所述系统还包括至少一个环境服务器, 每个所述环境服务器运行至 少一个仿真环境, 每 个仿真环境包括至少一个智能体, 智能体的总数 大于1, 所述方法包括: 接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据; 其中, 每个智能体的经验数据包括: 该智能体的状态信息、 所述环境服务器基于该智能体的状态 信息所确定的奖励信息和该智能体所在的仿真环境的运行 策略; 在所述经验数据的数据量不小于第 一预设数据量的情况下, 将相关联的智能体的经验 数据进行混合, 并将混合后的经验数据存 储于预设经验 池中; 在所述预设经验池中的数据量达到第 二预设数据量的情况下, 从所述预设经验池获取 混合后的经验数据作为样本数据, 并基于所述样本数据触发待训练强化学习模型 的训练, 得到输出 的预测运行策略信息; 其中, 所述预测运行策略信息包括所述环境服务器中对应 的仿真环境的预测运行 策略; 将所述预测运行策略信息发送至所述环境服务器, 以使: 所述环境服务器中对应的仿 真环境执行对应的预测运行策略, 并在执行完所述预测运行策略向所述中心训练服务器发 送各个仿真环境的状态信息; 接收所述环境服务器发送的各个仿真环境的状态信 息, 并基于所述各个仿真环境的状 态信息, 确定是否 达到预设的模型训练结束条件; 如果达到预设的模型训练结束条件, 将当前的待训练强化学习 模型确定为训练得到的 目标强化学习模型训练; 如果未达到预设的模型训练结束条件, 返回所述接收所述环境服务器发送的任意一个 仿真环境包括的各个智能体的经验数据的步骤。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述各个仿真环境的状态信息, 确定是否 达到预设的模型训练结束条件, 包括: 基于所述各个仿真环境的状态信 息, 确定所述环境服务器中各个仿真环境的是否均运 行完成预设次数; 如果所述环境服务器中各个仿真环境均运行完成预设次数, 确定达到预设的模型训练 结束条件。 3.根据权利要求1所述的方法, 其特征在于, 所述在所述经验数据的数据量不小于第 一 预设数据量的情况下, 将相关联 的智能体的经验数据进行混合, 并将混合后的经验数据存 储于预设经验 池中, 包括: 从所述环境 服务器获取 各个智能体之间的关联关系; 在所述经验数据的数据量不小于第一预设数据量的情况下, 针对每个智能体, 根据所 述关联关系, 将与该智能体相关联的智能体的经验数据和该智能体的经验数据进行混合, 得到混合经验数据, 并存 储于该智能体对应的预设经验 池中。 4.根据权利要求1所述的方法, 其特征在于, 在所述接收所述环境服务器发送的任意一 个仿真环境包括的各个智能体的经验数据之前, 还 包括: 获取各个所述环境 服务器的配置信息; 基于所述配置信息 选取待配置环境 服务器; 基于该待配置环境服务器的配置信 息, 创建所述中心训练服务器与 该待配置环境服务权 利 要 求 书 1/5 页 2 CN 114117752 A 2器之间的S SH连接; 通过SSH连接向该待配置环境服务器发送仿真环境启动指令, 以使该待配置环境服务 器执行根据所述环境启动 指令启动一个仿 真环境, 并在该仿真环境启动后所述中心训练服 务器返回该仿真环境对应的传输端口信息的步骤; 基于所述传输端口信息, 创建所述中心训练服务器与该仿真环境之间的信息传输通 道, 并更新该待配置环境 服务器中运行的仿真环境的数量; 如果该待配置环境服务器中运行的仿真环境的数量未达到该待配置环境服务器对应 的限制环境数量, 返回执行所述通过SSH连接向该待配置环境服务器发送仿真环境启动指 令的步骤; 否则, 停止针对该待配置环境服务器创建仿 真环境, 并针对剩余的环境服务器返 回执行所述基于所述配置信息选取待配置环境服务器的步骤, 直至每个环境服务器中运行 的仿真环境的数量均达 到该环境 服务器对应的限制环境数量。 5.根据权利要求4所述的方法, 其特征在于, 所述接收所述环境服务器发送的任意一个 仿真环境包括的各个智能体的经验数据, 包括: 通过所述环境服务器中各个仿真环境与 所述中心训练服务器之间的信 息传输通道, 接 收所述环境 服务器发送的任意 一个仿真环境包括的各个智能体的经验数据。 6.根据权利要求4所述的方法, 其特征在于, 每个仿真环境对应的预测运行策略携带该 仿真环境的环境标识; 所述将所述预测运行 策略信息发送至所述环境 服务器, 包括: 基于所述预测运行策略信 息中每个预测运行策略所携带的环境标识, 确定该预测运行 策略对应的仿真环境; 通过该仿真环境与 所述中心训练服务器之间的信 息传输通道, 将该预测运行策略分发 至所述环境服务器中该环境标识对应的仿 真环境, 以使所述环境服务器中的该仿真环境执 行该预测运行 策略。 7.根据权利要求1所述的方法, 其特征在于, 在所述将所述预测运行策略信 息发送至所 述环境服务器之前, 还 包括: 在所述预设经验池中的数据量未达到第 二预设数据量的情况下, 向所述环境服务器发 送预设运行策略信息, 以使所述环境服务器中对应的仿 真环境中执行预设运行策略信息中 对应的预测运行策略, 并在执行完所述预测运行策略向所述中心训练服务器发送各个仿真 环境的状态信息, 并返回所述接收所述环境服务器发送的任意一个仿 真环境包括的各个智 能体的经验数据的步骤。 8.一种智能体的强化学习模型训练方法, 其特征在于, 应用于强化学习模型训练系统 中的任意一个环境服务器, 所述系统包括中心训练服务器和至少一个环境服务器, 每个所 述环境服务器运行至少一个仿真环境, 每个仿真环境包括至少一个智能体, 智能体的总 数 大于1, 所述方法包括: 向所述中心训练服务器发送任意一个仿真环境包括的各个智能体的经验数据, 以使所 述中心训练服 务器执行以下步骤: 在所述预设经验池中的数据量达到第 二预设数据量的情况下, 从所述预设经验池获取 混合后的经验数据作为样本数据, 并基于所述样本数据触发待训练强化学习模型 的训练, 得到输出 的预测运行策略信息; 将所述预测运行策略信息发送至所述环境服务器; 接 收所权 利 要 求 书 2/5 页 3 CN 114117752 A 3

.PDF文档 专利 一种智能体的强化学习模型训练方法及系统

文档预览
中文文档 40 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能体的强化学习模型训练方法及系统 第 1 页 专利 一种智能体的强化学习模型训练方法及系统 第 2 页 专利 一种智能体的强化学习模型训练方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。