专利一种基于博弈的强化学习方法、系统、终端及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111302570.2 (22)申请日 2021.11.04 (71)申请人中国电子科技集团公司信息科学研究院地址 100086 北京市海淀区四道口北街3 6 号院4号楼 (72)发明人席宝　刘佳冀　陈思　高放　王昭　龙玉婧　 (74)专利代理机构北京中知法苑知识产权代理有限公司 1 1226 代理人李明　赵吉阳 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于博弈的强化学习方法、系统、终端及存储介质 (57)摘要本发明提供种基于博弈的强化学习方法、系统、终端及存储介质，包括：根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；在满足收敛条件的情况下，输出训练的强化学习模型。本发明顶层采用基于博弈规则的行为树在不同子任务之间切换，能够有效降低复杂任务的学习难度，提高学习效率；底层采用基于多智能体的强化学习方法训练与环境交互的模型，可以有效地描述局部环境特征，具有较高的可扩展性和环境适应性。权利要求书1页说明书6页附图4页 CN 114021737 A 2022.02.08 CN 114021737 A 1.一种基于博弈的强化学习方法，其特征在于，包括：根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；在满足收敛条件的情况下，输出训练的强化学习模型。 2.根据权利要求1所述的方法，其特征在于，所述确定每个子任务对应的状态空间、动作空间和奖励函数，包括：确定每个所述子任务对应的全局环境图层和局部环境图层，其中，所述全局环境图层为所述状态空间在全局视角下的环境特征图层，所述局部环境图层为所述状态空间在智能体视角下的环境特征图层。 3.根据权利要求2所述的方法，其特征在于，所述确定每个所述子任务对应的全局环境图层和局部环境图层，包括：获取第一智能体的局部环境图层中的多项环境特征；将第一智能体的视角角度划分为多个方向块，并确定每个所述方向块对应的态势，所述态势为所述多项环境特征中一项环境特征的总和；将所述总和放缩到预设范围。 4.根据权利要求2所述的方法，其特征在于，所述构建强化学习模型，包括：根据所述全局环境图层和局部环境图层，构建强化学习模型，所述强化学习模型用于输出智能体的动作和/或状态值，所述全局环境图层通过多层神经网络与局部环境图层的一端进行向量连接，所述局部环境图层的另一端与多层神经网络进行向量连接，所述神经网络包括全连接层、注意力层和循环神经网络层。 5.根据权利要求3所述的方法，其特征在于，所述环境特征包括第二智能体的数量、距离和威胁程度。 6.根据权利要求2所述的方法，其特征在于，所述全局环境图层中包括环境地形、环境迷雾、博弈双方信息。 7.一种基于博弈的强化学习系统，其特征在于，包括：根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；在满足收敛条件的情况下，输出训练的强化学习模型。 8.一种终端，其特征在于，包括：处理器；用于存储处理器的执行指令的存储器；其中，所述处理器被配置为执行权利要求1 ‑6任一项所述的方法。 9.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 114021737 A 2一种基于博弈的强化学习方法、系统、终端及存储介质技术领域 [0001]本发明属于数据处理技术领域，具体涉及一种基于博弈的强化学习方法、系统、终端及存储介质。背景技术 [0002]强化学习(Reinforcement Learning,RL)是机器学习的范式和方法论之一，在强化学习领域，将学习的主体抽象为智能体，智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标。 [0003]近年来，强化学习在棋类博弈、游戏对抗以及资源管理等方面取得了突出的进展。针对多智能体对抗博弈问题，传统的强化学习方法，随着智能体数量增加，导致的状态空间和动作空间呈指数级增长，存在维度灾难问题、智能体的加入和退出导致的可扩展性问题、以及从零开始学习导致的训练效率低的问题等，目前这些问题是强化学习在多智能体对抗博弈问题上。发明内容 [0004]针对现有技术的上述不足，本发明提供一种基于博弈的强化学习方法、系统、终端及存储介质，以解决上述技术问题。 [0005]第一方面，本发明提供一种基于博弈的强化学习方法，包括： [0006]根据输入的博弈规则，基于行为树将学习任务分解为一组子任务； [0007]确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型； [0008]将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练； [0009]在满足收敛条件的情况下，输出训练的强化学习模型。 [0010]进一步的，所述确定每个子任务对应的状态空间、动作空间和奖励函数，包括： [0011]确定每个所述子任务对应的全局环境图层和局部环境图层，其中，所述全局环境图层为所述状态空间在全局视角下的环境特征图层，所述局部环境图层为所述状态空间在智能体视角下的环境特征图层。 [0012]进一步的，所述确定每个所述子任务对应的全局环境图层和局部环境图层，包括： [0013]获取第一智能体的局部环境图层中的多项环境特征； [0014]将第一智能体的视角角度划分为多个方向块，并确定每个所述方向块对应的态势，所述态势为所述多项环境特征中一项环境特征的总和； [0015]将所述总和放缩到预设范围。 [0016]进一步的，所述构建强化学习模型，包括： [0017]根据所述全局环境图层和局部环境图层，构建强化学习模型，所述强化学习模型用于输出智能体的动作和/或状态值，所述全局环境图层通过多层神经网络与局部环境图层的一端进行向量连接，所述局部环境图层的另一端与多层神经网络进行向量连接，所述说　明　书 1/6 页 3 CN 114021737 A 3

专利 一种基于博弈的强化学习方法、系统、终端及存储介质

专利一种基于博弈的强化学习方法、系统、终端及存储介质