全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210610748.8 (22)申请日 2022.05.31 (71)申请人 苏州大学 地址 215123 江苏省苏州市苏州工业园区 仁爱路199号 (72)发明人 刘全 欧阳震 朱斐  (74)专利代理 机构 苏州翔远专利代理事务所 (普通合伙) 32251 专利代理师 陆金星 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于离线环境交 互的机器人控制方法 (57)摘要 本发明公开的一种基于离线环境交互的机 器人控制方法, 包括通过摄像头采集环境信息, 生成目标行动者网络, 通过离线数据集建立目标 评论家网络, 将目标行动者网络输入目标评论家 网络进行更新; 采集当前评论家网络, 将目标评 论家网络与当前评论家网络进行比较, 得到偏差 率; 判断所述偏差率是否大于预设偏差率阈值, 若大于, 则生成损失函数, 通过损失函数对当前 评论家网络进行更新, 得到更新后的当前评论家 网络; 根据更新后的当前评论家网络生成截断固 定原子数量; 通过截断固定原子数量生成目标值 输入当前行动者网络; 通过当前行动者网络控制 机器人执行相应的动作。 权利要求书2页 说明书6页 附图1页 CN 114770523 A 2022.07.22 CN 114770523 A 1.一种基于 离线环境交 互的机器人控制方法, 其特 征在于, 包括如下步骤: S1, 通过摄 像头采集环境信息, 生成目标 行动者网络, S2, 通过离线数据集建立目标评论家网络, 将 目标行动者网络输入目标评论家网络进 行更新; S3, 采集当前评论家网络, 将目标评论家网络与当前评论家网络进行比较, 得到偏差 率; S4, 判断所述偏差率是否大于预设偏差率阈值, S5, 若大于, 则生成损失函数, 通过损失函数对当前评论家网络进行更新, 得到更新后 的当前评论家网络; S6, 根据更新后的当前评论家网络生成截断固定原子数量; S7, 通过截断固定原子数量 生成目标值输入当前 行动者网络; S8, 通过当前 行动者网络控制机器人 执行相应的动作。 2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 目标 评论家网络为两个, 通 过两个评 论家神经网络来 更新Q(s,a), 两个网络的参数记为θ1, θ2, 目 标函数的更新公式为: r为样本记录的离线环境回报值, γ是回报衰减度, 通过计算更新公式, 来更新现在的 目标值y; 缓解高估问题的同时, 为目标动作添加截断噪声: 通过 μ(s′, θ′)评论家获取动作值, 并且加入 ε截断噪声, 获取到下一 步动作 3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 使用 已收集未知策略交 互样本的离线数据集Β; 初始化总迭代次数T, 折扣因子γ, 偏移量τ=0.0001, c=0.5, 训练过程控制头最大范 围emax, 已经记录的最小范围emin, 当前值e; VEA模型参数 循环针对情节中每一时间步; 从数据集Β中取随机 批量样本(s,a,r,s ′); 根据编码输入s,a, 解码输出 计算值函数: z~N( μ, σ ) 更新VEA模型参数: 4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法, 其特征在于, VAE 是一个生成模型, 实现最大化边际对数似然对数 计算X={x1,x2,x3, x4......,xn}边际对数似然对数通过优化变分下界计算:权 利 要 求 书 1/2 页 2 CN 114770523 A 2logp(X)≥ Eq(X|z)[logp(X|z)]+DKL(q(z|X)| |p(z)); 其中p(z)为多元正态分布N(0,1), 定义后验q(z|X)=N(z|u(X), σ2(X)I)为编码器, p(X| z)为解码器, 给定样本通过解码器产生一个随机潜在变量z, 给编码器重建原始样本X, VAE 模型根据重建损失函数进行训练, 重新 参数化对变分下界进行梯度下降, 公式为: Ez~N( μ, σ )[f(z)]=Eε ~N(0,1)[f( μ+σ ε )]。 5.根据权利要求4所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 根据 所得权重来截断Q原子数量, 衡量公式为: 通过KL散度计算当前 策略和预测策略的距离, 计算变量 值。 6.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 根据 最小化损失函数来更新评论家网络参数w: w←argminw∑(Y‑Qw(s,a))2 最大化目标函数来更新行动者网络参数θ: 7.根据权利要求1所述的一种基于离线环境交互的机器人控制方法, 其特征在于, 目标 评论家网络的更新方式为: yi=r+γ(z(i)(s′,a′))i∈[1...KN] yi是网络i的状态动作值, Y(s,a)是使用截断控制高估偏差 方法后输 出更真实的状态动 作值。权 利 要 求 书 2/2 页 3 CN 114770523 A 3

.PDF文档 专利 一种基于离线环境交互的机器人控制方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于离线环境交互的机器人控制方法 第 1 页 专利 一种基于离线环境交互的机器人控制方法 第 2 页 专利 一种基于离线环境交互的机器人控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:19:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。