说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111672995.2 (22)申请日 2021.12.31 (71)申请人 上海商汤临港智能科技有限公司 地址 200232 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区泥城镇秋 山路1775弄29、 30号2楼01室 (72)发明人 刘杰 张胤民 李楚鸣  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称 网络的训练及设备的控制方法、 装置、 设备 以及存储介质 (57)摘要 本公开提供了一种网络的训练及设备的控 制方法、 装置、 设备以及存储介质, 其中, 该方法 包括: 从离线数据池中获取训练样本数据; 基于 所述策略网络以及所述训练样 本数据, 确定目标 策略; 基于所述评价网络, 对所述目标策略进行 评价, 生成相应的评价值; 所述评价值用于指示 所述策略网络调整所述目标策略; 基于预设的目 标损失函数, 对所述评价网络的参数进行调整; 其中, 所述目标损失函数包括限制损失函数以及 利用损失函数, 所述限制损失函数用于最小化所 述评价值, 所述利用损失函数用于最大化所述评 价值, 且所述限制损失函数与所述利用损失函数 之间存在预设的关联关系。 本公开实施例, 可 以 提升训练的稳定性。 权利要求书2页 说明书11页 附图4页 CN 114219087 A 2022.03.22 CN 114219087 A 1.一种神经网络的训练方法, 其特征在于, 所述神经网络包括策略网络和评价网络, 所 述方法包括: 从离线数据池中获取训练样本数据; 所述训练样本数据包括第一状态、 动作以及第二 状态, 所述第二状态为执 行所述动作后转移至的状态; 基于所述策略网络以及所述训练样本数据, 确定目标 策略; 基于所述评价网络, 对所述目标策略进行评价, 生成相应的评价值; 所述评价值用于指 示所述策略网络调整所述目标 策略; 基于预设的目标损失函数, 对所述评价网络的参数进行调整; 其中, 所述目标损失函数 包括限制损失函数以及利用损失函数, 所述限制损失函数用于最小化所述评价值, 所述利 用损失函数用于最大化所述评价值, 且所述限制损失函数与所述利用损失函数之 间存在预 设的关联关系。 2.根据权利要求1所述的方法, 其特征在于, 所述 限制损失函数包括权重系数, 所述权 重系数与所述利用损失函数的函数值 正相关。 3.根据权利要求2所述的方法, 其特征在于, 所述权重系数为所述利用损失函数的函数 值。 4.根据权利要求2所述的方法, 其特 征在于, 通过如下步骤确定所述权 重系数: 基于多次训练中每次得到的所述利用损失函数的函数值, 确定所述利用损失函数的函 数值的中位数; 基于所述中位数以及所述利用损失函数的函数值, 确定所述权 重系数。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述中位数以及所述利用损失函 数的函数值, 确定所述权 重系数, 包括: 基于所述中位数以及所述利用损失函数的函数值, 确定比例系数; 基于所述比例系数与所述利用损失函数的函数值的乘积, 确定所述权 重系数。 6.根据权利要求1所述的方法, 其特征在于, 所述利用损失函数包括第一项以及第二 项, 所述第一项为所述评价网络 输出的评价 值, 所述第二项为目标评价网络 输出的评价 值。 7.根据权利要求2所述的方法, 其特征在于, 所述限制损失函数包括第 一部分以及第 二 部分, 所述权重系 数分别作用于所述第一部分以及所述第二部分; 所述第一部分用于最小 化所述评价网络基于全空间数据集得到的评价值, 所述第二部 分用于最大化所述评价网络 基于所述离线数据池得到的评价 值。 8.一种智能行驶设备的控制方法, 其特 征在于, 包括: 获取智能行驶设备 所处的环境状态; 基于目标神经网络以及所述环境状态, 确定设备控制策略; 所述目标神经网络是根据 权利要求1 ‑7任一所述的神经网络的训练方法训练得到; 基于所述设备控制策略控制所述智能行驶设备。 9.一种神经网络的训练装置, 其特 征在于, 包括: 样本数据获取模块, 用于从离线数据池中获取训练样本数据; 所述训练样本数据包括 第一状态、 动作以及第二状态, 所述第二状态为执 行所述动作后转移至的状态; 目标策略确定模块, 用于基于所述策略网络以及所述训练样本数据, 确定目标 策略; 评价结果确定模块, 用于基于所述评价网络, 对所述目标策略进行评价, 生成相应的评权 利 要 求 书 1/2 页 2 CN 114219087 A 2价值; 所述评价 值用于指示所述策略网络调整所述目标 策略; 网络参数调 整模块, 用于基于预设的目标损失函数, 对所述评价网络的参数进行调整; 其中, 所述 目标损失函数包括限制损失函数以及利用损失函数, 所述限制损失函数用于最 小化所述评价值, 所述利用损失函数用于最大化所述评价值, 且所述限制损失函数与所述 利用损失函数之间存在预设的关联关系。 10.一种智能行驶设备的控制装置, 其特 征在于, 包括: 环境状态获取模块, 用于获取智能行驶设备 所处的环境状态; 控制策略确定模块, 用于基于目标神经网络以及所述环境状态, 确定设备控制策略; 所 述目标神经网络是根据权利要求1 ‑7任一所述的神经网络的训练方法训练得到; 行驶设备控制模块, 用于基于所述设备控制策略控制所述智能行驶设备。 11.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述 处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总 线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至7任意一项 所述的神经 网络的训练方法或者如权利要求8所述的智能行驶设备的控制方法。 12.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至7任意一项 所述的神经网络的训练方 法或者如权利要求8所述的智能行驶设备的控制方法。权 利 要 求 书 2/2 页 3 CN 114219087 A 3

.PDF文档 专利 网络的训练及设备的控制方法、装置、设备以及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网络的训练及设备的控制方法、装置、设备以及存储介质 第 1 页 专利 网络的训练及设备的控制方法、装置、设备以及存储介质 第 2 页 专利 网络的训练及设备的控制方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:51:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。