专利一种智能体群体交互的决策控制方法、装置及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676244.8 (22)申请日 2021.12.31 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人余超　刘岳鑫　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人许羽冬 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/02(2006.01) (54)发明名称一种智能体群体交互的决策控制方法、装置及系统 (57)摘要本发明公开了一种智能体群体交互的决策控制方法、装置及系统。该决策控制装置包括初始交互单元、模型训练单元以及决策控制单元。该决策控制系统还包括决策控制模块以及数据存储模块。通过构建包括顶层学习模型和底层学习模型的初始决策控制模型，并对该初始决策控制模型进行顶层和底层融合训练，从而获得最终决策控制模型进而进行决策控制，该决策控制方法、装置及系统提升了智能体群体交互时的决策控制的有效性。权利要求书2页说明书7页附图2页 CN 114298244 A 2022.04.08 CN 114298244 A 1.一种智能体群体交互的决策控制方法，其特征在于，所述决策控制方法包括：获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组；所述初始决策控制模型包括顶层学习模型以及底层学习模型；利用所述初始决策控制数据组，训练所述顶层学习模型和所述底层学习模型，从而获得最终决策控制模型；根据所述最终决策控制模型，对所述智能体的群体交互进行决策控制。 2.根据权利要求1所述的智能体群体交互的决策控制方法，其特征在于，获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组，具体包括：获取预设的初始决策控制模型以及对手的预设的对手模型，对预设的群体交互平台进行初始化，并获取智能体的第一状态以及对手的第二状态；所述初始决策控制模型包括局部神经网络；将所述第一状态输入所述局部神经网络以获得第一行为以及第一奖励，将所述第二状态输入所述对手模型以获得第二行为以及第二奖励，并将所述第一状态、所述第二状态、所述第一行为、所述第二行为、所述第一奖励以及所述第二奖励存储入初始决策控制数据组中；将所述第一行为和所述第二行为输入所述群体交互平台中，从而对应获得所述智能体的第三状态和所述对手的第四状态；将所述第三状态输入所述局部神经网络以获得第三行为以及第三奖励，将所述第四状态输入所述对手模型以获得第四行为以及第四奖励，并将所述第三状态、所述第四状态、所述第三行为、所述第四行为、所述第三奖励以及所述第四奖励存储入初始决策控制数据组中。 3.根据权利要求2所述的智能体群体交互的决策控制方法，其特征在于，利用所述初始决策控制数据组，训练所述顶层学习模型和所述底层学习模型，从而获得最终决策控制模型，具体包括：根据预设的组数，将智能体群体划分为对应数量的小组，根据所述初始决策控制数据组获取各个小组的平均行为值以及奖励和值；根据各个小组的平均行为值以及奖励和值，获取学习目标；根据所述学习目标以及所述初始决策控制数据组，训练所述顶层学习模型，从而获得第一顶层模型以及对应的第一平均值神经网络，并根据所述第一平均值神经网络以及所述初始决策控制数据组，训练所述底层学习模型，并记录训练次数；判断所述训练次数是否达到预设的次数阈值；当所述训练次数达到预设的次数阈值时，停止训练并输出最终决策控制模型。 4.根据权利要求3所述的智能体群体交互的决策控制方法，其特征在于，在判断所述训练次数是否达到预设的次数阈值之后，还包括：当所述训练次数未达到预设的次数阈值时，继续进行模型训练。 5.一种智能体群体交互的决策控制装置，其特征在于，所述决策控制装置包括初始交互单元、模型训练单元以及决策控制单元，其中，权　利　要　求　书 1/2 页 2 CN 114298244 A 2所述初始交互单元用于获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组；所述模型训练单元用于利用所述初始决策控制数据组，训练预设的顶层学习模型和预设的底层学习模型，从而获得最终决策控制模型；所述决策控制单元用于根据所述最终决策控制模型，对所述智能体的群体交互进行决策控制。 6.根据权利要求5所述的智能体群体交互的决策控制装置，其特征在于，所述初始交互单元还用于：获取预设的初始决策控制模型以及对手的预设的对手模型，对预设的群体交互平台进行初始化，并获取智能体的第一状态以及对手的第二状态；所述初始决策控制模型包括局部神经网络；将所述第一状态输入所述局部神经网络以获得第一行为以及第一奖励，将所述第二状态输入所述对手模型以获得第二行为以及第二奖励，并将所述第一状态、所述第二状态、所述第一行为、所述第二行为、所述第一奖励以及所述第二奖励存储入初始决策控制数据组中；将所述第一行为和所述第二行为输入所述群体交互平台中，从而对应获得所述智能体的第三状态和所述对手的第四状态；将所述第三状态输入所述局部神经网络以获得第三行为以及第三奖励，将所述第四状态输入所述对手模型以获得第四行为以及第四奖励，并将所述第三状态、所述第四状态、所述第三行为、所述第四行为、所述第三奖励以及所述第四奖励存储入初始决策控制数据组中。 7.根据权利要求6所述的智能体群体交互的决策控制装置，其特征在于，所述模型训练单元还用于：根据预设的组数，将智能体群体划分为对应数量的小组，根据所述初始决策控制数据组获取各个小组的平均行为值以及奖励和值；根据各个小组的平均行为值以及奖励和值，获取学习目标；根据所述学习目标以及所述初始决策控制数据组，训练所述顶层学习模型，从而获得第一顶层模型以及对应的第一平均值神经网络，并根据所述第一平均值神经网络以及所述初始决策控制数据组，训练所述底层学习模型，并记录训练次数；判断所述训练次数是否达到预设的次数阈值；当所述训练次数达到预设的次数阈值时，停止训练并输出最终决策控制模型。 8.一种智能体群体交互的决策控制系统，其特征在于，所述决策控制系统还包括决策控制模块以及数据存储模块，所述决策控制模块与所述数据存储模块通信连接，其中，所述决策控制模块用于根据如权利要求1 ‑4任一项所述的智能体群体交互的决策控制方法，对智能体群体进行群体交互的决策控制，所述数据存储模块用于存储所有数据。权　利　要　求　书 2/2 页 3 CN 114298244 A 3

专利 一种智能体群体交互的决策控制方法、装置及系统

专利一种智能体群体交互的决策控制方法、装置及系统