专利一种基于离线环境交互的机器人控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210610748.8 (22)申请日 2022.05.31 (71)申请人苏州大学地址 215123 江苏省苏州市苏州工业园区仁爱路199号 (72)发明人刘全　欧阳震　朱斐　 (74)专利代理机构苏州翔远专利代理事务所 (普通合伙) 32251 专利代理师陆金星 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于离线环境交互的机器人控制方法 (57)摘要本发明公开的一种基于离线环境交互的机器人控制方法，包括通过摄像头采集环境信息，生成目标行动者网络，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新；采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率；判断所述偏差率是否大于预设偏差率阈值，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络；根据更新后的当前评论家网络生成截断固定原子数量；通过截断固定原子数量生成目标值输入当前行动者网络；通过当前行动者网络控制机器人执行相应的动作。权利要求书2页说明书6页附图1页 CN 114770523 A 2022.07.22 CN 114770523 A 1.一种基于离线环境交互的机器人控制方法，其特征在于，包括如下步骤： S1，通过摄像头采集环境信息，生成目标行动者网络， S2，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新； S3，采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率； S4，判断所述偏差率是否大于预设偏差率阈值， S5，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络； S6，根据更新后的当前评论家网络生成截断固定原子数量； S7，通过截断固定原子数量生成目标值输入当前行动者网络； S8，通过当前行动者网络控制机器人执行相应的动作。 2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，目标评论家网络为两个，通过两个评论家神经网络来更新Q(s,a)，两个网络的参数记为θ1, θ2，目标函数的更新公式为： r为样本记录的离线环境回报值， γ是回报衰减度，通过计算更新公式，来更新现在的目标值y；缓解高估问题的同时，为目标动作添加截断噪声：通过 μ(s′, θ′)评论家获取动作值，并且加入 ε截断噪声，获取到下一步动作 3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，使用已收集未知策略交互样本的离线数据集Β；初始化总迭代次数T，折扣因子γ，偏移量τ＝0.0001， c＝0.5，训练过程控制头最大范围emax，已经记录的最小范围emin，当前值e； VEA模型参数循环针对情节中每一时间步；从数据集Β中取随机批量样本(s,a,r,s ′)；根据编码输入s,a，解码输出计算值函数： z～N( μ, σ ) 更新VEA模型参数： 4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法，其特征在于， VAE 是一个生成模型，实现最大化边际对数似然对数计算X＝{x1,x2,x3, x4......,xn}边际对数似然对数通过优化变分下界计算：权　利　要　求　书 1/2 页 2 CN 114770523 A 2logp(X)≥ Eq(X|z)[logp(X|z)]+DKL(q(z|X)| |p(z))；其中p(z)为多元正态分布N(0,1)，定义后验q(z|X)＝N(z|u(X), σ2(X)I)为编码器， p(X| z)为解码器，给定样本通过解码器产生一个随机潜在变量z，给编码器重建原始样本X， VAE 模型根据重建损失函数进行训练，重新参数化对变分下界进行梯度下降，公式为: Ez～N( μ, σ )[f(z)]＝Eε ～N(0,1)[f( μ+σ ε )]。 5.根据权利要求4所述的一种基于离线环境交互的机器人控制方法，其特征在于，根据所得权重来截断Q原子数量，衡量公式为: 通过KL散度计算当前策略和预测策略的距离，计算变量值。 6.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，根据最小化损失函数来更新评论家网络参数w： w←argminw∑(Y‑Qw(s,a))2 最大化目标函数来更新行动者网络参数θ： 7.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，目标评论家网络的更新方式为: yi＝r+γ(z(i)(s′,a′))i∈[1...KN] yi是网络i的状态动作值， Y(s,a)是使用截断控制高估偏差方法后输出更真实的状态动作值。权　利　要　求　书 2/2 页 3 CN 114770523 A 3

专利 一种基于离线环境交互的机器人控制方法

专利一种基于离线环境交互的机器人控制方法