专利一种基于图形化行为树和强化学习的建模方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211256186.8 (22)申请日 2022.10.13 (71)申请人北京鼎成智造科技有限公司地址 100193 北京市海淀区西北旺东路10 号院东区15号楼 2层01A201 (72)发明人陈敏杰　祁文豪　 (74)专利代理机构北京丰浩知识产权代理事务所(普通合伙) 11781 专利代理师李奉瑾 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称一种基于图形化行为树和强化学习的建模方法及装置 (57)摘要本发明公开了一种基于图形化行为树和强化学习的建模方法及装置，该方法包括：获取行为对象的图元信息；在web界面，对所述图元信息进行处理，得到图形化行为树模型；在web界面，选择交互环境，触发新建任务，对点击事件进行监听，生成训练环境；在所述训练环境中，获取行为树数据信息和强化学习训练配置数据信息；对所述行为树数据信息和强化学习训练配置数据信息进行处理，得到训练工程；利用所述训练工程，创建训练任务；启动所述训练任务，对所述图形化行为树模型进行训练，并保存模型。本发明方法减少了强化学习模型训练对硬件资源的硬性要求，同时也缩短了训练时间，解决了目前强化学习技术无法大规模生产应用的困境。权利要求书3页说明书12页附图4页 CN 115545213 A 2022.12.30 CN 115545213 A 1.一种基于图形化行为树和强化学习的建模方法，其特征在于，所述方法包括： S1，获取行为对象的图元信息；在web界面，对所述图元信息进行处理，得到图形化行为树模型；所述图形化行为树模型包括行为树解析器、行为树执行器、根节点、控制类节点和行为类节点；所述web界面，包括交互环境、图元API、训练图元API、强化学习API、行为树保存API、数据库操作API、训练工程API、资源管理API、算法管理API、神经网络API； S2，在web界面，选择交互环境，触发新建任务，对点击事件进行监听，生成训练环境； S3，在所述训练环境中，获取图形化行为树数据信息和强化学习训练配置数据信息； S4，对所述行为树数据信息和强化学习训练配置数据信息进行处理，得到训练工程； S5，利用所述训练工程，创建训练任务； S6，启动所述训练任务，对所述图形化行为树模型进行训练，得到训练行为树模型，所述训练行为树模型为基于图形化行为树和强化学习的模型。 2.根据权利要求1所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述在web界面对所述图元信息进行处理，得到图形化行为树模型，包括： S11，在web界面，调用图元API 生成图元数据； S12，对所述图元数据进行处理，建立图元关系，得到图元关系数据； S13，利用所述图元关系数据，绘制学习节点，添加训练执行的动作节点，调用训练图元 API创建训练相关数据； S14，在web界面，利用所述训练相关数据，绘制得到图形化行为树模型。 3.根据权利要求1所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述在web界面，选择交互环境，触发新建任务，对点击事件进行监听，生成训练环境，包括： S21，在web界面，调用强化学习API，生成强化学习算法框架； S22，在web界面，选择交互环境，触发新建任务，对点击事件进行监听，生成环境框架； S23，在web界面，选择神经网络，触发新建任务，对点击事件进行监听，生成神经网络框架； S24，在web界面，对所述强化学习算法框架、所述环境框架、所述神经网络框架进行整合处理，生成得到训练环境。 4.根据权利要求1所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述对所述行为树数据信息和强化学习训练配置数据信息进行处理，得到训练工程，包括： S31，在web界面，对所述行为树数据信息和强化学习训练配置数据信息进行处理，得到包含学习节点的行为树模型xml数据； S32，调用数据库操作API，将所述行为树模型xml数据保存到数据库中； S33，对所述数据库中的行为树模型xml数据进行处理，生成得到强化学习配置信息； S34，调用训练工程API，根据训练环境，利用所述强化学习配置信息，匹配相应的训练工程代码，生成得到训练工程。 5.根据权利要求1所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述利用所述训练工程，创建训练任务，包括： S41，在web界面，调用资源管理API，为当前创建的训练任务分配相应的计算资源；权　利　要　求　书 1/3 页 2 CN 115545213 A 2S42，在web界面中，调用算法管理API，利用相应算法，对参数列表进行配置，对算法超参数进行调整，得到超参数配置文件； S43，在web界面中，调用神经网络API，生成相应的神经网络代码； S44，在web界面中，选择样本池大小、迭代次数、模型保存周期参数，调用API生成相应代码配置； S45，将所述计算资源、超参数配置文件、神经网络代码、相应代码配置输入到所述训练工程，完成训练任务创建。 6.根据权利要求1所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述启动所述训练任务，对所述图形化行为树模型进行训练，并保存模型，包括： S51，预设行为树解析器，启动所述训练任务，利用所述行为树解析器对所述行为树模型xml数据进行解析，得到可执行代码对象； S52，匹配所述图形化行为树模型的学习节点信息，获取所述学习节点中动作空间大小，修改训练工程配置信息； S53，初始化训练环境、强化学习算法、行为树执行器； S54，启动行为树执行器，执行所述图形化行为树模型； S55，在所述训练环境中，利用所述图形化行为树模型，监听学习节点，当所述图形化行为树执行至学习节点时，调用强化学习训练API，进行样本数据采集； S56，当所述样本数据采集完成后，进行强化学习模型的训练迭代，并根据预设的模型保存周期的配置要求，进行模型的保存。 7.根据权利要求3所述的基于图形化行为树和强化学习的建模方法，其特征在于，所述行为树模型xml数据包含行为树的根节点root、控制类节点、动作节点、前置条件及节点关系描述信息；所述root节点由ro ot标签描述；所述控制类节点和动作节点由mxCel l标签描述；所述mxCell标签包括type参数、 NodeID参数、 id参数、 vertex参数、 edge参数、 source参数、 target参数；所述type参数表示节点的类型， NodeID参数表示节点的编号， id参数表示节点的唯一标识， vertex参数表示mxCell标签描述的是节点类信息， edge参数描述当前标签为关系标签， source参数表示父节点的id， target参数表示目标节点的id。 8.一种基于图形化行为树和强化学习的建模装置，其特征在于，所述装置包括：行为树绘制模块，用于获取行为对象的图元信息；在web界面，对所述图元信息进行处理，得到图形化行为树模型；所述图形化行为树模型包括行为树解析器、行为树执行器、根节点、控制类节点和行为类节点；所述web界面，包括交互环境、图元API、训练图元API、强化学习API、行为树保存API、数据库操作API、训练工程API、资源管理API、算法管理API、神经网络API；训练环境创建模块，用于在web界面，选择交互环境，触发新建任务，对点击事件进行监听，生成训练环境；配置数据信息获取模块，用于在所述训练环境中，获取图形化行为树数据信息和强化权　利　要　求　书 2/3 页 3 CN 115545213 A 3

专利 一种基于图形化行为树和强化学习的建模方法及装置

专利一种基于图形化行为树和强化学习的建模方法及装置