专利提升智能体连续控制稳定性的方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111532624.4 (22)申请日 2021.12.15 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人王杰　匡宇飞　周祺　周文罡　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 代理人郑立明　付久春 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/00(2006.01) (54)发明名称提升智能体连续控制稳定性的方法 (57)摘要本发明公开了一种提升智能体连续控制稳定性的方法，包括：步骤1，智能体按预先设定的连续控制任务与环境交互采集交互数据，将交互数据作为训练数据放到经验回放池中；步骤2，对所述保守状态策略评价模块的目标函数取最小值的方式对所述保守状态打分网络进行训练；步骤3，结合训练好的所述保守状态打分网络对所述保守状态策略提升模块的目标函数进行计算，通过取最大值的方式对所述保守状态策略网络的策略函数进行训练，直至得出稳定性最强的策略；步骤4，智能体用稳定性最强的策略执行后续的连续控制。该方法有效增强了智能体强化学习训练得到策略从训练环境到真实环境迁移时的鲁棒性，提升智能体连续控制的稳定性。权利要求书2页说明书10页附图5页 CN 114186496 A 2022.03.15 CN 114186496 A 1.一种提升智能体连续控制稳定性的方法，其特征在于，用于部署有保守状态打分网络和保守状态策略网络的强化学习的智能体中，所述保守状态打分网络采用保守状态策略评价模块进行训练，所述保守状态策略网络采用保守状态策略提升模块进行训练；包括：步骤1，所述智能体按预先设定的连续控制任务与环境进行交互采集交互数据，将采集的所述交互数据作为训练数据放到经验回放池中；步骤2，所述智能体从所述经验回放池中取出一批训练数据，通过对所述保守状态策略评价模块的目标函数取最小值的方式对所述保守状态打分网络进行训练；步骤3，所述智能体从所述经验回放池中取出一批训练数据，结合训练好的所述保守状态打分网络对所述保守状态策略提升模块的目标函数进行计算，通过取最大值的方式对所述保守状态策略网络的策略函数进行训练，直至得出稳定性最强的策略；步骤4，所述智能体采用稳定性最强的策略执行后续的连续控制任务。 2.根据权利要求1所述的提升智能体连续控制稳定性的方法，其特征在于，所述步骤2 中，通过最小化以下所述保守状态策略评价模块的目标函数(1)对所述保守状态打分网络进行训练，所述目标函数(1)为：其中，的定义为：上述各式中，各参数表示的含义为： Qθ为通过θ参数化的打分函数，其输入为当前时刻的状态和动作，输出为当前状态下对当前动作质量的打分； θ 为打分函数Q的参数； st为所述智能体在t时刻的状态； at为所述智能体在t时刻的动作； r(st,at)为t时刻的状态st和动作at的所述智能体的奖励函数； γ 为对所述智能体未来拿到的奖励进行衰减的折扣因子； p0为所述智能体在环境中的初始状态分布； Bε(st)为状态st附近大小为 ε 的小邻域，表示来自状态空间扰动的大小； inf表示对小邻域Bε(st)的所有状态求极小值； πφ(·|s)表示在状态s所述智能体选择的动作遵循的概率分布； E表示对概率分布 πφ(·|s)或者初始状态分布p0求数学期望； D为收集训练数据的经验回放池。 3.根据权利要求1所述的提升智能体连续控制稳定性的方法，其特征在于，所述步骤3 中，通过最大化以下目标函数(2)对所述保守状态策略网络的策略函数π进行训练，所述目标函数(2)为：权　利　要　求　书 1/2 页 2 CN 114186496 A 2上式(1)中，各参数表示的含义为： πφ为通过φ参数化的策略函数，其输入为一个当前时刻的状态，输出为输入状态下各个动作的概率分布； φ为所述策略函数π 的参数； st为所述智能体在t时刻的状态； Bε(st)为状态st附近大小为 ε 的小邻域，表示来自状态空间扰动的大小； inf表示对小邻域Bε(st)的所有状态求极小值； πφ(·|s)表示在状态s智能体选择的动作遵循的概率分布； E表示对概率分布 πφ(·|s)求数学期望； D为收集训练数据的经验回放池。 4.根据权利要求2或3所述的提升智能体连续控制稳定性的方法，其特征在于，所述方法中，采用打分函数Q的一阶泰勒展开作为所述目标函数(1)、 (2)的近似解，能高效近似打分函数在 Bε(st)中s极小值的梯度正则项，该近似解为：其中， Uθ， φ(s)表示状态s下打分函数Q关于动作a的期望，即：上述各式中，各参数含义为： s为t时刻智能体的状态； a为t时刻智能体的动作；为函数关于状态s的梯度； Bε(st)为状态st附近大小为 ε 的小邻域， ε为来自状态空间预设的扰动大小； inf代表对这个小邻域的所有状态求极小值； Qθ为通过θ参数化的打分函数，打分函数输入当前时刻的状态和动作，输出当前状态下对当前动作质量的打分； πφ为通过φ参数化的策略函数，其输入为一个当前时刻的状态，输出为该状态下各个动作的概率分布； E为对概率分布 πφ(·|s)求数学期望； D为收集训练数据的经验回放池。 5.根据权利要求1所述的提升智能体连续控制稳定性的方法，其特征在于，所述交互数据包括：动作数据和状态数据。 6.根据权利要求1所述的提升智能体连续控制稳定性的方法，其特征在于，所述智能体为：智能机器人、智能工业控制系统中的任一种。 7.根据权利要求1所述的提升智能体连续控制稳定性的方法，其特征在于，所述智能机器人包括：蜘蛛型、类人型、半豹型、单足型、双足型机器人中的任一种。权　利　要　求　书 2/2 页 3 CN 114186496 A 3

专利 提升智能体连续控制稳定性的方法

专利提升智能体连续控制稳定性的方法