全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676244.8 (22)申请日 2021.12.31 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 余超 刘岳鑫  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 许羽冬 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/02(2006.01) (54)发明名称 一种智能体群体交互的决策控制方法、 装置 及系统 (57)摘要 本发明公开了一种智能体群体交互的决策 控制方法、 装置及系统。 该决策控制装置包括初 始交互单元、 模型训练单元 以及决策控制单元。 该决策控制系统还包括决策控制模块 以及数据 存储模块。 通过构建包括顶层学习模 型和底层学 习模型的初始决策控制模型, 并对 该初始决策控 制模型进行顶层和底层融合训练, 从而获得最终 决策控制模 型进而进行决策控制, 该决策控制方 法、 装置及系统提升了智能体群体交互时的决策 控制的有效性。 权利要求书2页 说明书7页 附图2页 CN 114298244 A 2022.04.08 CN 114298244 A 1.一种智能体 群体交互的决策控制方法, 其特 征在于, 所述决策控制方法包括: 获取预设的初始决策控制模型, 使智能体群体根据 所述初始决策控制模型进行群体交 互, 从而获取初始决策控制数据 组; 所述初始决策控制模型包括顶层学习模型以及底层学 习模型; 利用所述初始决策控制数据组, 训练所述顶层学习模型和所述底层学习模型, 从而获 得最终决策控制模型; 根据所述 最终决策控制模型, 对所述智能体的群 体交互进行决策控制。 2.根据权利要求1所述的智能体群体交互的决策控制方法, 其特征在于, 获取预设的初 始决策控制模型, 使智能体群体根据所述初始决策控制模型进行群体交互, 从而获取初始 决策控制数据组, 具体包括: 获取预设的初始决策控制模型以及对手的预设的对手模型, 对预设的群体交互平台进 行初始化, 并获取智能体的第一状态以及对手的第二状态; 所述初始决策控制模型包括局 部神经网络; 将所述第一状态输入所述局部神经网络以获得第 一行为以及第 一奖励, 将所述第 二状 态输入所述对手模型以获得第二行为以及第二奖励, 并将所述第一状态、 所述第二状态、 所 述第一行为、 所述第二行为、 所述第一奖励以及所述第二奖励存储入初始决策控制数据 组 中; 将所述第一行为和所述第 二行为输入所述群体交互平台中, 从而对应获得所述智能体 的第三状态和所述对手的第四状态; 将所述第三状态输入所述局部神经网络以获得第 三行为以及第 三奖励, 将所述第四状 态输入所述对手模型以获得第四行为以及第四奖励, 并将所述第三状态、 所述第四状态、 所 述第三行为、 所述第四行为、 所述第三奖励以及所述第四奖励存储入初始决策控制数据 组 中。 3.根据权利要求2所述的智能体群体交互的决策控制方法, 其特征在于, 利用所述初始 决策控制数据组, 训练所述顶层学习模型和所述底层学习模型, 从而获得最终决策控制模 型, 具体包括: 根据预设的组数, 将智能体群体划分为对应数量的小组, 根据所述初始决策控制数据 组获取各个小组的平均行为 值以及奖励和值; 根据各个小组的平均行为 值以及奖励和值, 获取 学习目标; 根据所述学习目标以及所述初始决策控制数据组, 训练所述顶层学习模型, 从而获得 第一顶层模型以及 对应的第一平均值神经网络, 并根据所述第一平均值神经网络以及所述 初始决策控制数据组, 训练所述底层学习模型, 并记录训练次数; 判断所述训练次数 是否达到预设的次数阈值; 当所述训练次数达 到预设的次数阈值时, 停止训练并输出最终决策控制模型。 4.根据权利要求3所述的智能体群体交互的决策控制方法, 其特征在于, 在判断所述训 练次数是否达到预设的次数阈值之后, 还 包括: 当所述训练次数 未达到预设的次数阈值时, 继续进行模型训练。 5.一种智能体群体交互的决策控制装置, 其特征在于, 所述决策控制装置包括初始交 互单元、 模型训练单 元以及决策控制单 元, 其中,权 利 要 求 书 1/2 页 2 CN 114298244 A 2所述初始 交互单元用于获取预设的初始决策控制模型, 使智能体群体根据所述初始决 策控制模型进行群 体交互, 从而获取初始决策控制数据组; 所述模型训练单元用于利用所述初始决策控制数据组, 训练预设的顶层学习 模型和预 设的底层学习模型, 从而获得最终决策控制模型; 所述决策控制单元用于根据 所述最终决策控制模型, 对所述智能体的群体交互进行 决 策控制。 6.根据权利要求5所述的智能体群体交互的决策控制装置, 其特征在于, 所述初始交互 单元还用于: 获取预设的初始决策控制模型以及对手的预设的对手模型, 对预设的群体交互平台进 行初始化, 并获取智能体的第一状态以及对手的第二状态; 所述初始决策控制模型包括局 部神经网络; 将所述第一状态输入所述局部神经网络以获得第 一行为以及第 一奖励, 将所述第 二状 态输入所述对手模型以获得第二行为以及第二奖励, 并将所述第一状态、 所述第二状态、 所 述第一行为、 所述第二行为、 所述第一奖励以及所述第二奖励存储入初始决策控制数据 组 中; 将所述第一行为和所述第 二行为输入所述群体交互平台中, 从而对应获得所述智能体 的第三状态和所述对手的第四状态; 将所述第三状态输入所述局部神经网络以获得第 三行为以及第 三奖励, 将所述第四状 态输入所述对手模型以获得第四行为以及第四奖励, 并将所述第三状态、 所述第四状态、 所 述第三行为、 所述第四行为、 所述第三奖励以及所述第四奖励存储入初始决策控制数据 组 中。 7.根据权利要求6所述的智能体群体交互的决策控制装置, 其特征在于, 所述模型训练 单元还用于: 根据预设的组数, 将智能体群体划分为对应数量的小组, 根据所述初始决策控制数据 组获取各个小组的平均行为 值以及奖励和值; 根据各个小组的平均行为 值以及奖励和值, 获取 学习目标; 根据所述学习目标以及所述初始决策控制数据组, 训练所述顶层学习模型, 从而获得 第一顶层模型以及 对应的第一平均值神经网络, 并根据所述第一平均值神经网络以及所述 初始决策控制数据组, 训练所述底层学习模型, 并记录训练次数; 判断所述训练次数 是否达到预设的次数阈值; 当所述训练次数达 到预设的次数阈值时, 停止训练并输出最终决策控制模型。 8.一种智能体群体交互的决策控制系统, 其特征在于, 所述决策控制系统还包括决策 控制模块以及数据存储模块, 所述决策控制模块与所述数据存储模块通信连接, 其中, 所述 决策控制模块用于根据如权利要求1 ‑4任一项所述的智能体群体交互的决策控制方法, 对 智能体群体进行群 体交互的决策控制, 所述数据存 储模块用于存 储所有数据。权 利 要 求 书 2/2 页 3 CN 114298244 A 3

.PDF文档 专利 一种智能体群体交互的决策控制方法、装置及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能体群体交互的决策控制方法、装置及系统 第 1 页 专利 一种智能体群体交互的决策控制方法、装置及系统 第 2 页 专利 一种智能体群体交互的决策控制方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:43:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。