专利一种基于深度强化学习和条件熵瓶颈的智能体控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210865762.2 (22)申请日 2022.07.21 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人史殿习　杨焕焕　杨绍武　彭滢璇　孙亦璇　史燕燕　赵琛然　胡浩萌　 (74)专利代理机构湖南企企卫知识产权代理有限公司 43257 专利代理师任合明 (51)Int.Cl. G05B 13/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01)G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于深度强化学习和条件熵瓶颈的智能体控制方法 (57)摘要本发明公开了一种基于深度强化学习和条件熵瓶颈的智能体控制方法，目的是解决图像连续控制任务中深度强化学习智能体控制方法控制策略精准度较低的问题。技术方案是：构建由感知模块、行动模块、存储模块、数据扩充模块、特征提取模块和控制模块组成的基于深度强化学习和条件熵瓶颈的智能体控制系统；基于条件熵瓶颈构建特征提取模块目标函数，通过变分推理技术得到相应的优化损失函数；构建图像连续控制任务仿真环境；智能体在仿真环境中训练控制系统，得到优化的网络参数；特征提取模块和控制模块加载网络参数得到训练后的控制系统。训练后的控制系统部署于真实环境的智能体，完成图像连续控制任务。采用本发明可提升智能体控制策略的精准度。权利要求书12页说明书25页附图3页 CN 115167136 A 2022.10.11 CN 115167136 A 1.一种基于深度强化学习和条件熵瓶颈的智能体控制方法，其特征在于包括以下步骤：第一步，构建基于深度强化学习和条件熵瓶颈的智能体控制系统，将该控制系统安装在智能体上，智能体与图像连续控制任务环境交互；所述智能体是指具有感知、通信、运动、存储、计算能力的无人节点；所述图像连续控制任务环境是指与智能体交互的实体，智能体以图像的形式观察环境的状态，并基于该图像观测按照连续型的控制指令在环境中行动；所述基于深度强化学习和条件熵瓶颈的智能体控制系统由感知模块、行动模块、存储模块、数据扩充模块、特征提取模块和控制模块组成；感知模块是图像传感器，与特征提取模块和存储模块相连；感知模块从图像连续控制任务环境中获取包含智能体状态和环境状态的图像观测，将图像观测发送给特征提取模块和存储模块；行动模块是智能体控制指令的执行器，与控制模块相连，从控制模块接收控制指令，按照控制指令在图像连续控制任务环境中行动；存储模块与感知模块、控制模块和数据扩充模块相连，从感知模块接收图像观测，从控制模块接收控制指令，从图像连续控制任务环境接收奖励，将图像观测、控制指令和奖励组合成智能体与图像连续控制任务环境交互的轨迹数据；轨迹数据以四元组(st,at,rt,st+1) 的形式存放，其中： st是智能体第t次与图像连续控制任务环境交互时从感知模块接收的图像观测， at是智能体第t次与图像连续控制任务环境交互时执行的来自控制模块的控制指令， rt是智能体第t次与图像连续控制任务环境交互时环境针对控制指令at反馈的奖励值， st+1是智能体第t次与图像连续控制任务环境交互、导致环境状态发生变化后从感知模块接收的图像观测，称为智能体第t+1次与图像连续控制任务环境交互时的图像观测；数据扩充模块与存储模块、特征提取模块和控制模块相连，从存储模块中随机选择基于深度强化学习和条件熵瓶颈的智能体控制系统训练所需的轨迹数据τ， τ＝(st,at,rt,st +1)，对τ中的st和st+1进行N次数据扩充，得到N次数据扩充后的轨迹数据τN， j∈[1,N]， j是N次数据扩充后图像观测的索引，将 τN发送给特征提取模块和控制模块；特征提取模块与感知模块、数据扩充模块和控制模块相连；特征提取模块由编码器网络、目标编码器网络、特征融合网络、单视图预测器网络和多视图预测器网络组成；编码器网络由第一编码器网络Encoder_1和第二编码器网络Encoder_2组成，与感知模块、数据扩充模块、控制模块、特征融合网络和单视图预测器网络相连； Encoder_1由4个卷积层、 1个全连接层和1个正则化层组成，与感知模块、数据扩充模块、控制模块和Encoder_2 相连； Enco der_2由3层全连接层组成，与Enco der_1、特征融合网络和单视图预测器网络相连；在智能体与图像连续控制任务环境交互时， Encoder_1从感知模块接收st， Encoder_1的第一、第二、第三、第四个卷积层依次使用3 ×3的卷积核对st进行卷积操作，得到四次卷积操作后的st，将四次卷积操作后的st发送给Enc oder_1的全连接层； Encoder_1的全连接层对从第四个卷积层接收的四次卷积操作后的st进行全连接操作，得到全连接后st对应的状态向量，将全连接后的状态向量发送给Encoder_1的正则化层； Encoder_1的正则化层对从 Encoder_1的全连接层接收的全连接后的状态向量进行正则化操作，得到正则化后的状态权　利　要　求　书 1/12 页 2 CN 115167136 A 2向量，将该正则化后的状态向量作为第一状态向量zt，将zt发送给控制模块；在训练基于深度强化学习和条件熵瓶颈的智能体控制系统时， Encoder_1从数据扩充模块接收数据扩充后的轨迹数据τN， Encoder_1的第一、第二、第三、第四个卷积层依次使用3 ×3的卷积核对τN 中的进行卷积操作，得到四次卷积操作后的将四次卷积操作后的发送给Encoder_1的全连接层； Encoder_1的全连接层对从第四个卷积层接收的四次卷积操作后的进行全连接操作，得到全连接后对应的N个状态向量，将全连接后的N个状态向量发送给Encoder_1的正则化层； Encoder_1的正则化层对从Enco der_1的全连接层接收的全连接后的N个状态向量进行正则化操作，得到正则化后的N个状态向量，将正则化后的N个状态向量作为第二状态向量，用表示，将第一个第二状态向量发送给控制模块，并将发送给Encoder_2； Encoder_2的第一、第二、第三个全连接层依次对从Encoder_1接收的进行全连接操作，得到三次全连接操作后对应的高斯分布的均值和方差，对均值和方差进行重参数化操作得到N个重参数化状态向量，用表示，将发送给特征融合网络和单视图预测器网络；目标编码器网络与数据扩充模块、控制模块和特征融合网络相连，由4个卷积层、 1个全连接层和1个正则化层组成；目标编码器网络从数据扩充模块接收τN，目标编码器网络的第一、第二、第三、第四个卷积层依次使用3 ×3的卷积核对τN中的进行卷积操作，得到四次卷积操作后的将四次卷积操作后的发送给全连接层；全连接层对从第四个卷积层接收的四次卷积操作后的进行全连接操作，得到全连接后对应的N个目标状态向量，将全连接后的N个目标状态向量发送给正则化层；正则化层对从全连接层接收的全连接后的N个目标状态向量进行正则化操作，得到正则化后的N个目标状态向量，将正则化后的N个目标状态向量作为目标状态向量，用表示，将第一个目标状态向量发送给控制模块，并将发送给特征融合网络；特征融合网络与编码器网络、目标编码器网络和多视图预测器网络相连，由第一融合网络Feature_1和第二融合网络Feature_2组成； Feature_1和Feature_2均由3层全连接层组成； Feature_1与编码器网络、目标编码器网络和Feature_2相连， Feature_1从编码器网络接收从目标编码器网络接收 Feature_1的第一、第二、第三个全连接层依次对进行全连接操作，将拼接为状态融合向量将发送给 Feature_2； Feature_1的第一、第二、第三个全连接层依次对进行全连权　利　要　求　书 2/12 页 3 CN 115167136 A 3

专利 一种基于深度强化学习和条件熵瓶颈的智能体控制方法

专利一种基于深度强化学习和条件熵瓶颈的智能体控制方法