(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210610748.8
(22)申请日 2022.05.31
(71)申请人 苏州大学
地址 215123 江苏省苏州市苏州工业园区
仁爱路199号
(72)发明人 刘全 欧阳震 朱斐
(74)专利代理 机构 苏州翔远专利代理事务所
(普通合伙) 32251
专利代理师 陆金星
(51)Int.Cl.
B25J 9/16(2006.01)
(54)发明名称
一种基于离线环境交 互的机器人控制方法
(57)摘要
本发明公开的一种基于离线环境交互的机
器人控制方法, 包括通过摄像头采集环境信息,
生成目标行动者网络, 通过离线数据集建立目标
评论家网络, 将目标行动者网络输入目标评论家
网络进行更新; 采集当前评论家网络, 将目标评
论家网络与当前评论家网络进行比较, 得到偏差
率; 判断所述偏差率是否大于预设偏差率阈值,
若大于, 则生成损失函数, 通过损失函数对当前
评论家网络进行更新, 得到更新后的当前评论家
网络; 根据更新后的当前评论家网络生成截断固
定原子数量; 通过截断固定原子数量生成目标值
输入当前行动者网络; 通过当前行动者网络控制
机器人执行相应的动作。
权利要求书2页 说明书6页 附图1页
CN 114770523 A
2022.07.22
CN 114770523 A
1.一种基于 离线环境交 互的机器人控制方法, 其特 征在于, 包括如下步骤:
S1, 通过摄 像头采集环境信息, 生成目标 行动者网络,
S2, 通过离线数据集建立目标评论家网络, 将 目标行动者网络输入目标评论家网络进
行更新;
S3, 采集当前评论家网络, 将目标评论家网络与当前评论家网络进行比较, 得到偏差
率;
S4, 判断所述偏差率是否大于预设偏差率阈值,
S5, 若大于, 则生成损失函数, 通过损失函数对当前评论家网络进行更新, 得到更新后
的当前评论家网络;
S6, 根据更新后的当前评论家网络生成截断固定原子数量;
S7, 通过截断固定原子数量 生成目标值输入当前 行动者网络;
S8, 通过当前 行动者网络控制机器人 执行相应的动作。
2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 目标
评论家网络为两个, 通 过两个评 论家神经网络来 更新Q(s,a), 两个网络的参数记为θ1, θ2, 目
标函数的更新公式为:
r为样本记录的离线环境回报值, γ是回报衰减度, 通过计算更新公式, 来更新现在的
目标值y;
缓解高估问题的同时, 为目标动作添加截断噪声:
通过 μ(s′, θ′)评论家获取动作值, 并且加入 ε截断噪声, 获取到下一 步动作
3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 使用
已收集未知策略交 互样本的离线数据集Β;
初始化总迭代次数T, 折扣因子γ, 偏移量τ=0.0001, c=0.5, 训练过程控制头最大范
围emax, 已经记录的最小范围emin, 当前值e;
VEA模型参数
循环针对情节中每一时间步;
从数据集Β中取随机 批量样本(s,a,r,s ′);
根据编码输入s,a, 解码输出
计算值函数:
z~N( μ, σ )
更新VEA模型参数:
4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法, 其特征在于, VAE
是一个生成模型, 实现最大化边际对数似然对数
计算X={x1,x2,x3,
x4......,xn}边际对数似然对数通过优化变分下界计算:权 利 要 求 书 1/2 页
2
CN 114770523 A
2logp(X)≥
Eq(X|z)[logp(X|z)]+DKL(q(z|X)| |p(z));
其中p(z)为多元正态分布N(0,1), 定义后验q(z|X)=N(z|u(X), σ2(X)I)为编码器, p(X|
z)为解码器, 给定样本通过解码器产生一个随机潜在变量z, 给编码器重建原始样本X, VAE
模型根据重建损失函数进行训练, 重新 参数化对变分下界进行梯度下降, 公式为:
Ez~N( μ, σ )[f(z)]=Eε ~N(0,1)[f( μ+σ ε )]。
5.根据权利要求4所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 根据
所得权重来截断Q原子数量, 衡量公式为:
通过KL散度计算当前 策略和预测策略的距离, 计算变量 值。
6.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 根据
最小化损失函数来更新评论家网络参数w:
w←argminw∑(Y‑Qw(s,a))2
最大化目标函数来更新行动者网络参数θ:
7.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 目标
评论家网络的更新方式为:
yi=r+γ(z(i)(s′,a′))i∈[1...KN]
yi是网络i的状态动作值, Y(s,a)是使用截断控制高估偏差 方法后输 出更真实的状态动
作值。权 利 要 求 书 2/2 页
3
CN 114770523 A
3
专利 一种基于离线环境交互的机器人控制方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:19:40上传分享