全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211256186.8 (22)申请日 2022.10.13 (71)申请人 北京鼎成智造科技有限公司 地址 100193 北京市海淀区西北旺东路10 号院东区15号楼 2层01A201 (72)发明人 陈敏杰 祁文豪  (74)专利代理 机构 北京丰浩知识产权代理事务 所(普通合伙) 11781 专利代理师 李奉瑾 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于图形化行为树和强化学习的建模 方法及装置 (57)摘要 本发明公开了一种基于图形化行为树和强 化学习的建模方法及装置, 该方法包括: 获取行 为对象的图元信息; 在web界面, 对所述图元信息 进行处理, 得到 图形化行为树模型; 在web界面, 选择交互环境, 触发新建任务, 对点击事件进行 监听, 生成训练环境; 在所述训练环境中, 获取行 为树数据信息和强化学习训练配置数据信息; 对 所述行为树数据信息和强化学习训练配置数据 信息进行处理, 得到训练工程; 利用所述训练工 程, 创建训练任务; 启动所述训练任务, 对所述图 形化行为树模型进行训练, 并保存模型。 本发明 方法减少了强化学习模型训练对硬件资源的硬 性要求, 同时也缩短了训练时间, 解决了目前强 化学习技 术无法大规模生产应用的困境。 权利要求书3页 说明书12页 附图4页 CN 115545213 A 2022.12.30 CN 115545213 A 1.一种基于图形化行为 树和强化学习的建模方法, 其特 征在于, 所述方法包括: S1, 获取行为对象的图元信息; 在web界面, 对所述图元信息进行处 理, 得到图形化行为 树模型; 所述图形化行为树模型包括行为树解析器、 行为树执行器、 根节点、 控制类节点和行为 类节点; 所述web界面, 包括交互环境、 图元API、 训练图元API、 强化学习API、 行为树保存API、 数 据库操作API、 训练工程API、 资源管理API、 算法管理API、 神经网络API; S2, 在web界面, 选择交 互环境, 触发新建任务, 对点击事 件进行监听, 生成训练环境; S3, 在所述训练环境中, 获取图形化行为 树数据信息和强化学习训练配置数据信息; S4, 对所述行为 树数据信息和强化学习训练配置数据信息进行处 理, 得到训练工程; S5, 利用所述训练工程, 创建训练任务; S6, 启动所述训练任务, 对所述图形化行为树模型进行训练, 得到训练行为树模型, 所 述训练行为 树模型为基于图形化行为 树和强化学习的模型。 2.根据权利要求1所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 在web界面对所述图元信息进行处 理, 得到图形化行为 树模型, 包括: S11, 在web界面, 调用图元API 生成图元 数据; S12, 对所述图元 数据进行处 理, 建立图元关系, 得到图元关系数据; S13, 利用所述图元关系数据, 绘制学习 节点, 添加训练执行的动作节点, 调用训练图元 API创建训练相关数据; S14, 在web界面, 利用所述训练相关数据, 绘制得到图形化行为 树模型。 3.根据权利要求1所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 在web界面, 选择交 互环境, 触发新建任务, 对点击事 件进行监听, 生成训练环境, 包括: S21, 在web界面, 调用强化学习API, 生成强化学习算法框架; S22, 在web界面, 选择交 互环境, 触发新建任务, 对点击事 件进行监听, 生成环境框架; S23, 在web界面, 选择神经网络, 触发新建任务, 对点击事件进行监听, 生成神经网络框 架; S24, 在web界面, 对所述强化学习算法框架、 所述环境框架、 所述神经网络框架进行整 合处理, 生成得到训练环境。 4.根据权利要求1所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 对所述行为 树数据信息和强化学习训练配置数据信息进行处 理, 得到训练工程, 包括: S31, 在web界面, 对所述行为树数据信息和强化学习训练配置数据信息进行处理, 得到 包含学习节点的行为 树模型xml数据; S32, 调用数据库操作API, 将所述行为 树模型xml数据保存到数据库中; S33, 对所述数据库中的行为 树模型xml数据进行处 理, 生成得到强化学习配置信息; S34, 调用训练工程API, 根据训练环境, 利用所述强化学习配置信息, 匹配相应的训练 工程代码, 生成得到训练工程。 5.根据权利要求1所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 利用所述训练工程, 创建训练任务, 包括: S41, 在web界面, 调用资源管理API, 为当前创建的训练任务分配相应的计算资源;权 利 要 求 书 1/3 页 2 CN 115545213 A 2S42, 在web界面中, 调用算法管理API, 利用相应算法, 对参数列表进行配置, 对算法超 参数进行调整, 得到超参数配置文件; S43, 在web界面中, 调用神经网络API, 生成相应的神经网络代码; S44, 在web界面中, 选择样本池大小、 迭代次数、 模型保存周期参数, 调用API生成相应 代码配置; S45, 将所述计算资源、 超参数配置文件、 神经网络代码、 相应代码配置输入到所述训练 工程, 完成训练任务创建。 6.根据权利要求1所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 启动所述训练任务, 对所述图形化行为 树模型进行训练, 并保存 模型, 包括: S51, 预设行为树解析器, 启动所述训练任务, 利用所述行为树解析器对所述行为树模 型xml数据进行解析, 得到可 执行代码对象; S52, 匹配所述图形化行为树模型的学习节点信息, 获取所述学习节点中动作空间大 小, 修改训练工程配置信息; S53, 初始化训练环境、 强化学习算法、 行为 树执行器; S54, 启动行为 树执行器, 执行所述图形化行为 树模型; S55, 在所述训练环境中, 利用所述图形化行为树模型, 监听学习 节点, 当所述图形化行 为树执行至学习节点时, 调用强化学习训练API, 进行样本数据采集; S56, 当所述样本数据采集完成后, 进行强化学习模型的训练迭代, 并根据预设的模型 保存周期的配置要求, 进行模型的保存。 7.根据权利要求3所述的基于图形化行为树和强化学习的建模方法, 其特征在于, 所述 行为树模型xml数据包含行为树的根节点root、 控制类节点、 动作节点、 前置条件及节点关 系描述信息; 所述root节点由ro ot标签描述; 所述控制类节点和动作节点由mxCel l标签描述; 所述mxCell标签包括type参数、 NodeID参数、 id参数、 vertex参数、 edge参数、 source参 数、 target参数; 所述type参数表示节点的类型, NodeID参数表示节点的编号, id参数表示节点的唯一 标识, vertex参数表示mxCell标签描述的是节点类信息, edge参数描述当前标签为关系标 签, source参数表示父节点的id, target参数表示目标节点的id。 8.一种基于图形化行为 树和强化学习的建模 装置, 其特 征在于, 所述装置包括: 行为树绘制模块, 用于获取 行为对象的图元信息; 在web界面, 对所述图元信息进行处 理, 得到图形化行为 树模型; 所述图形化行为树模型包括行为树解析器、 行为树执行器、 根节点、 控制类节点和行为 类节点; 所述web界面, 包括交互环境、 图元API、 训练图元API、 强化学习API、 行为树保存API、 数 据库操作API、 训练工程API、 资源管理API、 算法管理API、 神经网络API; 训练环境创建模块, 用于在web界面, 选择交互环境, 触发新建任务, 对点击事件进行监 听, 生成训练环境; 配置数据信息获取模块, 用于在所述训练环境中, 获取图形化行为树数据信息和强化权 利 要 求 书 2/3 页 3 CN 115545213 A 3

.PDF文档 专利 一种基于图形化行为树和强化学习的建模方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图形化行为树和强化学习的建模方法及装置 第 1 页 专利 一种基于图形化行为树和强化学习的建模方法及装置 第 2 页 专利 一种基于图形化行为树和强化学习的建模方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。