说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211307085.9 (22)申请日 2022.10.24 (71)申请人 上海人工智能创新中心 地址 200232 上海市徐汇区云锦路701号 37、 38层 (72)发明人 李学龙 白辰甲 王震 (74)专利代理 机构 上海智晟知识产权代理事务 所(特殊普通 合伙) 31313 专利代理师 李镝的 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称 基于不确定性估计的多任务离线数据共享 方法及系统 (57)摘要 本发明总的来说涉及强化学习技术领域, 提 出一种基于不确定性估计的多任务离线数据共 享方法及系统。 该方法包括: 提供多任务离线数 据集, 所述多任务离线数据集包括多个任务; 利 用所述多任务离线数据集进行数据共享 以生成 混合数据集; 根据所述混合数据集进行离线策略 学习, 其中包括: 根据所述混合数据集对多个值 函数网络进行训练并且生 成多个预测结果; 使用 所述多个预测结果的标准差进行不确定性计算; 以及基于所述不确定性计算的结果进行策略学 习。 本发明大大提升了数据共享的效率、 创造性 地使用近似贝叶斯后验来衡量数据的不确定性 符合离线强化学习的应用场景并且可以用于大 规模的机 器人任务。 权利要求书2页 说明书8页 附图3页 CN 115545188 A 2022.12.30 CN 115545188 A 1.一种基于不确定性估计的多任务离线数据共享方法, 其特 征在于, 包括下列步骤: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 根据所述混合数据集进行离线策略学习, 包括: 根据所述混合数据集对多个值 函数网络进行训练并且生成多个预测结果; 使用所述多个预测结果的标准差进行不确定性计算; 以及 基于所述 不确定性计算的结果进行 策略学习。 2.根据权利要求1所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 利用所述多任务离线数据集进行 数据共享以生成混合数据集包括下列步骤: 在所述多个任务中选择主任务以及共享任务, 其中在学习所述主任务 时从所述共享任 务中共享数据; 对所述共享任务中数据进行奖励重标记, 其中将所述共享任务中样本的奖励根据 所述 主任务的奖励函数进行重新计算; 以及 将所述共享任务与所述主任务混合以生成混合数据集。 3.根据权利要求2所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 所述多个值函数网络包括相同的网络结构以及各不相同的初始 化参数, 其中对所述多个值 函数网络使用随机梯度法进行训练以估计值 函数的贝叶斯后验分布。 4.根据权利要求3所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 将值函数通过演说 ‑评论家模型进行学习, 并且通过贝尔曼算子进 行迭代, 其中包括下列步 骤: 将所述混合数据集中存储的的经验表示为状态转移元组(s, a, r, s ′)的集合, 其中s表 示状态、 a表示动作、 r 表示奖励以及s ′表示下一时刻状态; 根据贝尔曼算子设置值 函数Q(s, a)的学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′), 其中, r表示单步环境奖励、 γ表示奖励随时间变化的折扣因子、 a ′表示下一时刻的贪 心动作; 将贝尔曼损失L表示 为下式: L =(Q(s, a) ‑y)2; 以及 通过最小化损所述贝尔曼损失L以进行值 函数的训练。 5.根据权利要求4所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 使用所述多个预测结果的标准差对状态动作(s, a)的不确定性Γ(s, a)进行计算, 表 示为下 式: Γ(s, a)=Std(Qi(s, a)), 其中i∈[1, K]、 K表示 值函数网络的数量。 6.根据权利要求5所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 基于所述 不确定性计算的结果进行 策略学习包括: 在值函数学习中使用不确定性计算的结果作为 惩罚重新设置学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′)‑Γ(s′, a′); 以及 根据惩罚后的学习目标进行策略学习, 其中通过优化min Qi来进行策略输出, i∈[1, K]。权 利 要 求 书 1/2 页 2 CN 115545188 A 27.一种基于不确定性估计的多任务离线数据共享系统, 其特 征在于, 该系统包括: 数据共享模块, 其被 配置为执 行下列动作: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 以及 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 策略学习模块, 其被 配置为根据所述混合数据集进行离线策略学习。 8.根据权利要求7所述的基于不确定性估计的多任务离线数据共享系统, 其特征在于, 所述策略学习模块包括: 值函数学习模块, 其被配置为根据 所述混合数据集对多个值函数网络进行训练并且生 成多个预测结果; 不确定性度量模块, 其被配置为使用所述多个预测结果的标准差进行不确定性计算; 以及 策略学习模块, 其被 配置为基于所述 不确定性计算的结果进行 策略学习。 9.一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序在被处理器执 行时执行根据权利要求1 ‑6之一所述的方法的步骤。 10.一种计算机系统, 包括: 处理器, 其被 配置为执 行机器可 执行指令; 以及 存储器, 其上存储有机器可执行指令, 所述机器可执行指令在被处理器执行时执行根 据权利要求1 ‑6之一所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545188 A 3
专利 基于不确定性估计的多任务离线数据共享方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:16
上传分享
举报
下载
原文档
(613.8 KB)
分享
友情链接
GB-T 13725-2019 建立术语数据库的一般原则与方法.pdf
GB-T 40855-2021 电动汽车远程服务与管理系统信息安全技术要求及试验方法.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
GB-T 38775.6-2021 电动汽车无线充电系统 第6部分:互操作性要求及测试 地面端.pdf
SN-T 1732.23-2019 烟花爆竹用烟火药剂中铅、铬、镉、汞和砷含量的测定 电感耦合等离子体发射光谱法.pdf
OWASP 移动应用安全验证标准 中文版-v1.4.2.pdf
GB-T 7779-2018 离心机 型号编制方法.pdf
GB-T 20794-2021 海洋及相关产业分类.pdf
DB3708-T 10-2022 公共机构节能监管平台建设指南 济宁市.pdf
T-ZKJXX 00032—2023 长波接收机技术要求及测试方法.pdf
安华金和 数据安全治理白皮书5.0 行业数据安全治理实践集.pdf
NIST 零信任架构实施规划指南 .pdf
T-ZZB 0604—2018 野营用户外折叠椅.pdf
GB-T 31499-2015 信息安全技术 统一威胁管理产品技术要求和测试评价方法.pdf
GB-T 36466-2018 信息安全技术 工业控制系统风险评估实施指南.pdf
GB-T 36630.5-2018 信息安全技术 信息技术产品安全可控评价指标 第5部分:通用计算机.pdf
ISO IEC 27035-1-2016.pdf
GB-T 41704-2022 锂离子电池正极材料检测方法 磁性异物含量和残余碱含量的测定.pdf
GB-T 14337-2022 化学纤维 短纤维拉伸性能试验方法.pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
1
/
14
评价文档
赞助2.5元 点击下载(613.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。