说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111672995.2 (22)申请日 2021.12.31 (71)申请人 上海商汤临港智能科技有限公司 地址 200232 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区泥城镇秋 山路1775弄29、 30号2楼01室 (72)发明人 刘杰 张胤民 李楚鸣 (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称 网络的训练及设备的控制方法、 装置、 设备 以及存储介质 (57)摘要 本公开提供了一种网络的训练及设备的控 制方法、 装置、 设备以及存储介质, 其中, 该方法 包括: 从离线数据池中获取训练样本数据; 基于 所述策略网络以及所述训练样 本数据, 确定目标 策略; 基于所述评价网络, 对所述目标策略进行 评价, 生成相应的评价值; 所述评价值用于指示 所述策略网络调整所述目标策略; 基于预设的目 标损失函数, 对所述评价网络的参数进行调整; 其中, 所述目标损失函数包括限制损失函数以及 利用损失函数, 所述限制损失函数用于最小化所 述评价值, 所述利用损失函数用于最大化所述评 价值, 且所述限制损失函数与所述利用损失函数 之间存在预设的关联关系。 本公开实施例, 可 以 提升训练的稳定性。 权利要求书2页 说明书11页 附图4页 CN 114219087 A 2022.03.22 CN 114219087 A 1.一种神经网络的训练方法, 其特征在于, 所述神经网络包括策略网络和评价网络, 所 述方法包括: 从离线数据池中获取训练样本数据; 所述训练样本数据包括第一状态、 动作以及第二 状态, 所述第二状态为执 行所述动作后转移至的状态; 基于所述策略网络以及所述训练样本数据, 确定目标 策略; 基于所述评价网络, 对所述目标策略进行评价, 生成相应的评价值; 所述评价值用于指 示所述策略网络调整所述目标 策略; 基于预设的目标损失函数, 对所述评价网络的参数进行调整; 其中, 所述目标损失函数 包括限制损失函数以及利用损失函数, 所述限制损失函数用于最小化所述评价值, 所述利 用损失函数用于最大化所述评价值, 且所述限制损失函数与所述利用损失函数之 间存在预 设的关联关系。 2.根据权利要求1所述的方法, 其特征在于, 所述 限制损失函数包括权重系数, 所述权 重系数与所述利用损失函数的函数值 正相关。 3.根据权利要求2所述的方法, 其特征在于, 所述权重系数为所述利用损失函数的函数 值。 4.根据权利要求2所述的方法, 其特 征在于, 通过如下步骤确定所述权 重系数: 基于多次训练中每次得到的所述利用损失函数的函数值, 确定所述利用损失函数的函 数值的中位数; 基于所述中位数以及所述利用损失函数的函数值, 确定所述权 重系数。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述中位数以及所述利用损失函 数的函数值, 确定所述权 重系数, 包括: 基于所述中位数以及所述利用损失函数的函数值, 确定比例系数; 基于所述比例系数与所述利用损失函数的函数值的乘积, 确定所述权 重系数。 6.根据权利要求1所述的方法, 其特征在于, 所述利用损失函数包括第一项以及第二 项, 所述第一项为所述评价网络 输出的评价 值, 所述第二项为目标评价网络 输出的评价 值。 7.根据权利要求2所述的方法, 其特征在于, 所述限制损失函数包括第 一部分以及第 二 部分, 所述权重系 数分别作用于所述第一部分以及所述第二部分; 所述第一部分用于最小 化所述评价网络基于全空间数据集得到的评价值, 所述第二部 分用于最大化所述评价网络 基于所述离线数据池得到的评价 值。 8.一种智能行驶设备的控制方法, 其特 征在于, 包括: 获取智能行驶设备 所处的环境状态; 基于目标神经网络以及所述环境状态, 确定设备控制策略; 所述目标神经网络是根据 权利要求1 ‑7任一所述的神经网络的训练方法训练得到; 基于所述设备控制策略控制所述智能行驶设备。 9.一种神经网络的训练装置, 其特 征在于, 包括: 样本数据获取模块, 用于从离线数据池中获取训练样本数据; 所述训练样本数据包括 第一状态、 动作以及第二状态, 所述第二状态为执 行所述动作后转移至的状态; 目标策略确定模块, 用于基于所述策略网络以及所述训练样本数据, 确定目标 策略; 评价结果确定模块, 用于基于所述评价网络, 对所述目标策略进行评价, 生成相应的评权 利 要 求 书 1/2 页 2 CN 114219087 A 2价值; 所述评价 值用于指示所述策略网络调整所述目标 策略; 网络参数调 整模块, 用于基于预设的目标损失函数, 对所述评价网络的参数进行调整; 其中, 所述 目标损失函数包括限制损失函数以及利用损失函数, 所述限制损失函数用于最 小化所述评价值, 所述利用损失函数用于最大化所述评价值, 且所述限制损失函数与所述 利用损失函数之间存在预设的关联关系。 10.一种智能行驶设备的控制装置, 其特 征在于, 包括: 环境状态获取模块, 用于获取智能行驶设备 所处的环境状态; 控制策略确定模块, 用于基于目标神经网络以及所述环境状态, 确定设备控制策略; 所 述目标神经网络是根据权利要求1 ‑7任一所述的神经网络的训练方法训练得到; 行驶设备控制模块, 用于基于所述设备控制策略控制所述智能行驶设备。 11.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述 处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总 线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至7任意一项 所述的神经 网络的训练方法或者如权利要求8所述的智能行驶设备的控制方法。 12.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至7任意一项 所述的神经网络的训练方 法或者如权利要求8所述的智能行驶设备的控制方法。权 利 要 求 书 2/2 页 3 CN 114219087 A 3
专利 网络的训练及设备的控制方法、装置、设备以及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 21:51:42
上传分享
举报
下载
原文档
(880.3 KB)
分享
友情链接
GB-Z 42885-2023 信息安全技术 网络安全信息共享指南.pdf
GB-T 32770-2016 竹子名词术语.pdf
GM-T 0038-2014 证书认证密钥管理系统检测规范.pdf
GB-T 20512-2006 GPS接收机导航定位数据输出格式.pdf
freebuf 2019企业安全威胁统一应对指南.pdf
DB12-T 1121-2022 基坑降水水资源论证技术规程 天津市.pdf
GB-T 39254-2020 增材制造 金属制件机械性能评价通则.pdf
JR-T 0083-2013 人身保险伤残评定标准及代码.pdf
GB-T 32040-2015 石化企业节能量计算方法.pdf
GM-T 0001.2-2012 祖冲之序列密码算法:第2部分:基于祖冲之算法的机密性算法.pdf
GB-T 27930-2023 非车载传导式充电机与电动汽车之间的数字通信协议.pdf
GB-T 2350-2020 流体传动系统及元件 活塞杆螺纹型式和尺寸系列.pdf
GB-T 25759-2010 无损检测 数字化超声检测数据的计算机传输数据段指南.pdf
DB65-T 4595—2022 高压开关柜局部放电在线监测装置技术规范 新疆维吾尔自治区.pdf
GB-T 18442.7-2017 固定式真空绝热深冷压力容器 第7部分:内容器应变强化技术规定.pdf
GB-T 37673-2019 煤灰中硅、铝、铁、钙、镁、钠、钾、磷、钛、锰、钡、锶的测定 X射线荧光光谱法.pdf
DB52-T 1541.7-2021 政务数据平台 第7部分:运维管理规范 贵州省.pdf
T-CSEA 16—2021 高固份型汽车防腐蜡.pdf
GB-T 30428.3-2016 数字化城市管理信息系统 第3部分:地理编码.pdf
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
1
/
3
18
评价文档
赞助2.5元 点击下载(880.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。