(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210865762.2
(22)申请日 2022.07.21
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 史殿习 杨焕焕 杨绍武 彭滢璇
孙亦璇 史燕燕 赵琛然 胡浩萌
(74)专利代理 机构 湖南企企卫知识产权代理有
限公司 43257
专利代理师 任合明
(51)Int.Cl.
G05B 13/04(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/04(2006.01)G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于深度强化学习和条件熵瓶颈的智
能体控制方法
(57)摘要
本发明公开了一种基于深度强化学习和条
件熵瓶颈的智能体控制方法, 目的是解决图像连
续控制任务中深度强化学习智能体控制方法控
制策略精准度较低的问题。 技术方案是: 构建由
感知模块、 行动模块、 存储模块、 数据扩充模块、
特征提取模块和控制模块组成的基于深度强化
学习和条件熵 瓶颈的智能体控制系统; 基于条件
熵瓶颈构建特征提取模块目标函数, 通过变分推
理技术得到相应的优化损失函数; 构建图像连续
控制任务仿真环境; 智能体在仿真环 境中训练控
制系统, 得到优化的网络参数; 特征提取模块和
控制模块加载网络参数得到训练后的控制 系统。
训练后的控制系统部署于真实环 境的智能体, 完
成图像连续控制任务。 采用本发 明可提升智能体
控制策略的精准度。
权利要求书12页 说明书25页 附图3页
CN 115167136 A
2022.10.11
CN 115167136 A
1.一种基于深度强化学习和条件熵瓶颈的智能体控制方法, 其特征在于包括以下步
骤:
第一步, 构建基于深度强化学习和条件熵瓶颈的智能体控制系统, 将该控制系统安装
在智能体上, 智能体与图像连续控制任务环 境交互; 所述智能体是指具有感知、 通信、 运动、
存储、 计算能力的无人节点; 所述图像连续控制任务环境是指与智能体交互的实体, 智能体
以图像的形式观察环境的状态, 并基于该图像观测按照连续型 的控制指令在环境中行动;
所述基于深度强化学习和条件熵瓶颈的智能体控制系统由感知 模块、 行动模块、 存储模块、
数据扩充模块、 特 征提取模块和控制模块组成;
感知模块是图像传感器, 与特征提取模块和存储模块相连; 感知模块从图像连续控制
任务环境中获取包含智能体状态和环境状态的图像观测, 将图像观测发送给特征提取模块
和存储模块;
行动模块是智能体控制 指令的执行器, 与控制模块相连, 从控制模块接收控制指令, 按
照控制指令在图像连续控制任务环境中行动;
存储模块与感知模块、 控制模块和数据扩充模块相连, 从感知模块接收图像观测, 从控
制模块接收控制指 令, 从图像连续控制任务环境接收奖励, 将图像观测、 控制指 令和奖励组
合成智能体与图像连续控制任务环境交互的轨迹数据; 轨迹数据以四元组(st,at,rt,st+1)
的形式存放, 其中: st是智能体第t次与图像连续控制任务环境交互时从感知模块接收的图
像观测, at是智能体第t次与图像连续控制任务环境交互时执行的来自控制模块的控制指
令, rt是智能体第t次与图像连续控制任务环境交互时环境针对控制 指令at反馈的奖励值,
st+1是智能体第t次与图像连续控制任务环境交互、 导致环 境状态发生变化后从感知 模块接
收的图像观测, 称为智能体第t+1次与图像连续控制任务环境交 互时的图像观测;
数据扩充模块与存储模块、 特征提取模块和控制模块相连, 从存储模块中随机选择基
于深度强化学习和条件熵瓶颈的智能体控制系统训练所需的轨迹数据τ, τ=(st,at,rt,st
+1), 对τ中的st和st+1进行N次数据扩充, 得到N次数据扩充后的轨迹数据τN,
j∈[1,N], j是N次数据扩充后图像观测的索
引, 将 τN发送给特征提取模块和控制模块;
特征提取模块与感知模块、 数据扩充模块和控制模块相连; 特征提取模块由编码器网
络、 目标编码器网络、 特 征融合网络、 单视图预测器网络和多视图预测器网络组成;
编码器网络由第一编码器网络Encoder_1和第二编码器网络Encoder_2组成, 与感知模
块、 数据扩充模块、 控制模块、 特征融合网络和单视图预测器网络相连; Encoder_1由4个卷
积层、 1个全连接层和1个正则化层组成, 与感知模块、 数据扩充模块、 控制模块和Encoder_2
相连; Enco der_2由3层全连接层组成, 与Enco der_1、 特征融合网络和单视图预测器网络相
连; 在智能体与图像连续控制任务环境 交互时, Encoder_1从感知模块接收st, Encoder_1的
第一、 第二、 第三、 第四个卷积层依次使用3 ×3的卷积核对st进行卷积操作, 得到四次卷积
操作后的st, 将四次卷积操作后的st发送给Enc oder_1的全连接层; Encoder_1的全连接层对
从第四个卷积层接收的四次卷积操作后的st进行全连接操作, 得到全连接后st对应的状态
向量, 将全连接后的状态向量发送给Encoder_1的正则化层; Encoder_1的正则化层对从
Encoder_1的全连接层接收的全连接后的状态向量进行正则化操作, 得到正则化后的状态权 利 要 求 书 1/12 页
2
CN 115167136 A
2向量, 将该正则化后的状态向量作为第一状态向量zt, 将zt发送给控制模块; 在训练基于深
度强化学习和条件熵瓶颈的智能体控制系统时, Encoder_1从数据扩充模块接收数据扩充
后的轨迹数据τN, Encoder_1的第一、 第二、 第三、 第四个卷积层依次使用3 ×3的卷积核对τN
中的
进行卷积操作, 得到四次卷积操作后的
将四次卷积操
作后的
发送给Encoder_1的全连接层; Encoder_1的全连接层对从第四个卷
积层接收的四次卷积操作后的
进行全连接操作 , 得到全连接后
对应的N个状态向量, 将全连接后的N个状态向量发送给Encoder_1的正则化
层; Encoder_1的正则化层对从Enco der_1的全连接层接收的全连接后的N个状态向量进行
正则化操作, 得到正则化后的N个状态向量, 将正则化后的N个状态向量作为第二状态向量,
用
表示, 将第一个第二状态向量
发送给控制模块, 并将
发
送给Encoder_2; Encoder_2的第一、 第二、 第三个全连接层依次对从Encoder_1接收的
进行全连接操作, 得到三次全连接操作后
对应的高斯分布的
均值和方差, 对均值和方差进行重参数化操作得到N个重参数化状态向量, 用
表示, 将
发送给特
征融合网络和单视图预测器网络;
目标编码器网络与数据扩充模块、 控制模块和特征融合网络相连, 由4个卷积层、 1个全
连接层和1个正则化层组成; 目标编码器网络从数据扩充模块接收τN, 目标编码器网络的第
一、 第二、 第三、 第四个卷积层依次使用3 ×3的卷积核对τN中的
进行卷
积 操 作 , 得 到 四 次 卷 积 操 作 后的
将 四 次 卷 积 操 作 后的
发送给全连接层; 全连接层对从第四个卷积层接收的四次卷积操作后
的
进行全连接操作, 得到全连接后
对应的N个目
标状态向量, 将全连接后的N个目标状态向量 发送给正则化层; 正则化层 对从全连接层接收
的全连接后的N个目标状态向量进行正则化操作, 得到正则化后的N个目标状态向量, 将正
则化后的N个目标状态向量作为目标状态向量, 用
表示, 将第一个目标
状态向量
发送给控制模块, 并将
发送给特征融合网络;
特征融合网络与编码器网络、 目标编码器网络和多视 图预测器网络相连, 由第一融合
网络Feature_1和第二融合网络Feature_2组成; Feature_1和Feature_2均由3层全连接层
组成; Feature_1与编码器网络、 目标编码器网络和Feature_2相连, Feature_1从编码器网
络接收
从目标编码器网络接收
Feature_1的第一、 第二、 第三个全连接层依次对
进行
全连接操作, 将
拼接为状态融合向量
将
发送给
Feature_2; Feature_1的第一、 第二、 第三个全连接层依次对
进行全连权 利 要 求 书 2/12 页
3
CN 115167136 A
3
专利 一种基于深度强化学习和条件熵瓶颈的智能体控制方法
文档预览
中文文档
41 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共41页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:26:57上传分享