全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111532624.4 (22)申请日 2021.12.15 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 王杰 匡宇飞 周祺 周文罡  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 代理人 郑立明 付久春 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/00(2006.01) (54)发明名称 提升智能体连续控制稳定性的方法 (57)摘要 本发明公开了一种提升智能体连续控制稳 定性的方法, 包括: 步骤1, 智能体按预先设定的 连续控制任务与环境交互采集交互数据, 将交互 数据作为训练数据放到经验回放池中; 步骤2, 对 所述保守状态策略评价模块的目标函数取最小 值的方式对 所述保守状态打分网络进行训练; 步 骤3, 结合训练好的所述保守状态打分网络对所 述保守状态策略提升模块的目标函数进行计算, 通过取最大值的方式对所述保守状态策略网络 的策略函数进行训练, 直至得出稳定性最强的策 略; 步骤4, 智能体用稳定性最强的策略执行后续 的连续控制。 该方法有效增强了智能体强化学习 训练得到策略从训练环境到真实环境迁移时的 鲁棒性, 提升智能体连续控制的稳定性。 权利要求书2页 说明书10页 附图5页 CN 114186496 A 2022.03.15 CN 114186496 A 1.一种提升智能体连续控制稳定性的方法, 其特征在于, 用于部署有保守状态打分网 络和保守状态策略网络的强化学习的智能体中, 所述保守状态打分 网络采用保守状态策略 评价模块进行训练, 所述保守状态策略网络采用保守状态策略提升模块进行训练; 包括: 步骤1, 所述智能体按预先设定的连续控制任务与环境进行交互采集交互数据, 将采集 的所述交 互数据作为训练数据放到经验回放池中; 步骤2, 所述智能体从所述经验回放池中取出一批训练数据, 通过对所述保守状态策略 评价模块的目标函数 取最小值的方式对所述保守状态打 分网络进行训练; 步骤3, 所述智能体从所述经验回放池中取出一批训练数据, 结合训练好的所述保守状 态打分网络对所述保守状态策略提升模块的目标函数进行计算, 通过取最大值的方式对所 述保守状态策略网络的策略函数进行训练, 直至得 出稳定性最强的策略; 步骤4, 所述智能体采用稳定性 最强的策略执 行后续的连续控制任务。 2.根据权利要求1所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述步骤2 中, 通过最小化以下所述保守状态策略评价模块的目标函数(1)对所述保守状态打分网络 进行训练, 所述目标函数(1)为: 其中, 的定义为: 上述各式 中, 各参数表示的含义 为: Qθ为通过θ参数化的打分函数, 其输入为当前时刻的状态和动作, 输出为当前状态下对 当前动作质量的打 分; θ 为打 分函数Q的参数; st为所述智能体在t时刻的状态; at为所述智能体在t时刻的动作; r(st,at)为t时刻的状态st和动作at的所述智能体的奖励函数; γ 为对所述智能体未来拿到的奖励进行衰减的折扣因子; p0为所述智能体在环境中的初始状态分布; Bε(st)为状态st附近大小为 ε 的小邻域, 表示 来自状态空间扰动的大小; inf表示对小邻域Bε(st)的所有状态求极小值; πφ(·|s)表示在状态s所述智能体选择的动作遵循的概 率分布; E表示对概 率分布 πφ(·|s)或者初始状态分布p0求数学期望; D为收集训练数据的经验回放池。 3.根据权利要求1所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述步骤3 中, 通过最大化以下目标函数(2)对所述保守状态策 略网络的策 略函数π进行训练, 所述目 标函数(2)为:权 利 要 求 书 1/2 页 2 CN 114186496 A 2上式(1)中, 各参数表示的含义 为: πφ为通过φ参数化的策略函数, 其输入为一个当前时刻的状态, 输出为输入状态下各 个动作的概 率分布; φ为所述策略函数π 的参数; st为所述智能体在t时刻的状态; Bε(st)为状态st附近大小为 ε 的小邻域, 表示 来自状态空间扰动的大小; inf表示对小邻域Bε(st)的所有状态求极小值; πφ(·|s)表示在状态s智能体选择的动作遵循的概 率分布; E表示对概 率分布 πφ(·|s)求数学期望; D为收集训练数据的经验回放池。 4.根据权利要求2或3所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述方 法中, 采用打分函数Q的一阶泰勒展开作为所述目标函数(1)、 (2)的近似解, 能高效近似打 分函数在 Bε(st)中s极小值的梯度正则项, 该近似解 为: 其中, Uθ, φ(s)表示状态s下打 分函数Q关于动作a的期望, 即: 上述各式 中, 各参数含义 为: s为t时刻智能体的状态; a为t时刻智能体的动作; 为函数关于状态s的梯度; Bε(st)为状态st附近大小为 ε 的小邻域, ε为 来自状态空间预设的扰动大小; inf代表对这个小邻域的所有状态求极小值; Qθ为通过θ参数化的打分函数, 打分函数输入当前时刻的状态和动作, 输出当前状态下 对当前动作质量的打 分; πφ为通过φ参数化的策略函数, 其输入为一个当前时刻的状态, 输出为该状态下各个 动作的概 率分布; E为对概率分布 πφ(·|s)求数学期望; D为收集训练数据的经验回放池。 5.根据权利要求1所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述交互数 据包括: 动作数据和状态数据。 6.根据权利要求1所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述智能体 为: 智能机器人、 智能工业控制系统中的任一种。 7.根据权利要求1所述的提升智能体连续控制稳定性的方法, 其特征在于, 所述智能机 器人包括: 蜘蛛型、 类人 型、 半豹型、 单足型、 双足型机器人中的任一种。权 利 要 求 书 2/2 页 3 CN 114186496 A 3

.PDF文档 专利 提升智能体连续控制稳定性的方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 提升智能体连续控制稳定性的方法 第 1 页 专利 提升智能体连续控制稳定性的方法 第 2 页 专利 提升智能体连续控制稳定性的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。