专利一种智能体的强化学习模型训练方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111326221.4 (22)申请日 2021.11.10 (71)申请人杭州海康威视数字技术股份有限公司地址 310051 浙江省杭州市滨江区阡陌路 555号 (72)发明人王正伟　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人项京　高莺然 (51)Int.Cl. G06F 30/20(2020.01) G06N 20/00(2019.01) (54)发明名称一种智能体的强化学习模型训练方法及系统 (57)摘要本发明实施例提供了一种智能体的强化学习模型训练方法及系统，上述方法包括：接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据；将相关联的智能体的经验数据进行混合并存储于预设经验池中；获取混合后的经验数据作为样本数据，并基于所述样本数据触发待训练强化学习模型的训练，得到输出的预测运行策略信息；将所述预测运行策略信息发送至所述环境服务器，以使所述环境服务器中对应的仿真环境执行对应的预测运行策略；如果达到预设的模型训练结束条件，将当前的待训练强化学习模型确定为训练得到的目标强化学习模型训练。即本发明实施例提出了一种新的支持多智能体、多仿真环境的高效的强化学习模型训练框架。权利要求书5页说明书27页附图7页 CN 114117752 A 2022.03.01 CN 114117752 A 1.一种智能体的强化学习模型训练方法，其特征在于，应用于强化学习模型训练系统中的中心训练服务器，所述系统还包括至少一个环境服务器，每个所述环境服务器运行至少一个仿真环境，每个仿真环境包括至少一个智能体，智能体的总数大于1，所述方法包括：接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据；其中，每个智能体的经验数据包括：该智能体的状态信息、所述环境服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运行策略；在所述经验数据的数据量不小于第一预设数据量的情况下，将相关联的智能体的经验数据进行混合，并将混合后的经验数据存储于预设经验池中；在所述预设经验池中的数据量达到第二预设数据量的情况下，从所述预设经验池获取混合后的经验数据作为样本数据，并基于所述样本数据触发待训练强化学习模型的训练，得到输出的预测运行策略信息；其中，所述预测运行策略信息包括所述环境服务器中对应的仿真环境的预测运行策略；将所述预测运行策略信息发送至所述环境服务器，以使：所述环境服务器中对应的仿真环境执行对应的预测运行策略，并在执行完所述预测运行策略向所述中心训练服务器发送各个仿真环境的状态信息；接收所述环境服务器发送的各个仿真环境的状态信息，并基于所述各个仿真环境的状态信息，确定是否达到预设的模型训练结束条件；如果达到预设的模型训练结束条件，将当前的待训练强化学习模型确定为训练得到的目标强化学习模型训练；如果未达到预设的模型训练结束条件，返回所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据的步骤。 2.根据权利要求1所述的方法，其特征在于，所述基于所述各个仿真环境的状态信息，确定是否达到预设的模型训练结束条件，包括：基于所述各个仿真环境的状态信息，确定所述环境服务器中各个仿真环境的是否均运行完成预设次数；如果所述环境服务器中各个仿真环境均运行完成预设次数，确定达到预设的模型训练结束条件。 3.根据权利要求1所述的方法，其特征在于，所述在所述经验数据的数据量不小于第一预设数据量的情况下，将相关联的智能体的经验数据进行混合，并将混合后的经验数据存储于预设经验池中，包括：从所述环境服务器获取各个智能体之间的关联关系；在所述经验数据的数据量不小于第一预设数据量的情况下，针对每个智能体，根据所述关联关系，将与该智能体相关联的智能体的经验数据和该智能体的经验数据进行混合，得到混合经验数据，并存储于该智能体对应的预设经验池中。 4.根据权利要求1所述的方法，其特征在于，在所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据之前，还包括：获取各个所述环境服务器的配置信息；基于所述配置信息选取待配置环境服务器；基于该待配置环境服务器的配置信息，创建所述中心训练服务器与该待配置环境服务权　利　要　求　书 1/5 页 2 CN 114117752 A 2器之间的S SH连接；通过SSH连接向该待配置环境服务器发送仿真环境启动指令，以使该待配置环境服务器执行根据所述环境启动指令启动一个仿真环境，并在该仿真环境启动后所述中心训练服务器返回该仿真环境对应的传输端口信息的步骤；基于所述传输端口信息，创建所述中心训练服务器与该仿真环境之间的信息传输通道，并更新该待配置环境服务器中运行的仿真环境的数量；如果该待配置环境服务器中运行的仿真环境的数量未达到该待配置环境服务器对应的限制环境数量，返回执行所述通过SSH连接向该待配置环境服务器发送仿真环境启动指令的步骤；否则，停止针对该待配置环境服务器创建仿真环境，并针对剩余的环境服务器返回执行所述基于所述配置信息选取待配置环境服务器的步骤，直至每个环境服务器中运行的仿真环境的数量均达到该环境服务器对应的限制环境数量。 5.根据权利要求4所述的方法，其特征在于，所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据，包括：通过所述环境服务器中各个仿真环境与所述中心训练服务器之间的信息传输通道，接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据。 6.根据权利要求4所述的方法，其特征在于，每个仿真环境对应的预测运行策略携带该仿真环境的环境标识；所述将所述预测运行策略信息发送至所述环境服务器，包括：基于所述预测运行策略信息中每个预测运行策略所携带的环境标识，确定该预测运行策略对应的仿真环境；通过该仿真环境与所述中心训练服务器之间的信息传输通道，将该预测运行策略分发至所述环境服务器中该环境标识对应的仿真环境，以使所述环境服务器中的该仿真环境执行该预测运行策略。 7.根据权利要求1所述的方法，其特征在于，在所述将所述预测运行策略信息发送至所述环境服务器之前，还包括：在所述预设经验池中的数据量未达到第二预设数据量的情况下，向所述环境服务器发送预设运行策略信息，以使所述环境服务器中对应的仿真环境中执行预设运行策略信息中对应的预测运行策略，并在执行完所述预测运行策略向所述中心训练服务器发送各个仿真环境的状态信息，并返回所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据的步骤。 8.一种智能体的强化学习模型训练方法，其特征在于，应用于强化学习模型训练系统中的任意一个环境服务器，所述系统包括中心训练服务器和至少一个环境服务器，每个所述环境服务器运行至少一个仿真环境，每个仿真环境包括至少一个智能体，智能体的总数大于1，所述方法包括：向所述中心训练服务器发送任意一个仿真环境包括的各个智能体的经验数据，以使所述中心训练服务器执行以下步骤：在所述预设经验池中的数据量达到第二预设数据量的情况下，从所述预设经验池获取混合后的经验数据作为样本数据，并基于所述样本数据触发待训练强化学习模型的训练，得到输出的预测运行策略信息；将所述预测运行策略信息发送至所述环境服务器；接收所权　利　要　求　书 2/5 页 3 CN 114117752 A 3

专利 一种智能体的强化学习模型训练方法及系统

专利一种智能体的强化学习模型训练方法及系统