说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211307085.9 (22)申请日 2022.10.24 (71)申请人 上海人工智能创新中心 地址 200232 上海市徐汇区云锦路701号 37、 38层 (72)发明人 李学龙 白辰甲 王震  (74)专利代理 机构 上海智晟知识产权代理事务 所(特殊普通 合伙) 31313 专利代理师 李镝的 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称 基于不确定性估计的多任务离线数据共享 方法及系统 (57)摘要 本发明总的来说涉及强化学习技术领域, 提 出一种基于不确定性估计的多任务离线数据共 享方法及系统。 该方法包括: 提供多任务离线数 据集, 所述多任务离线数据集包括多个任务; 利 用所述多任务离线数据集进行数据共享 以生成 混合数据集; 根据所述混合数据集进行离线策略 学习, 其中包括: 根据所述混合数据集对多个值 函数网络进行训练并且生 成多个预测结果; 使用 所述多个预测结果的标准差进行不确定性计算; 以及基于所述不确定性计算的结果进行策略学 习。 本发明大大提升了数据共享的效率、 创造性 地使用近似贝叶斯后验来衡量数据的不确定性 符合离线强化学习的应用场景并且可以用于大 规模的机 器人任务。 权利要求书2页 说明书8页 附图3页 CN 115545188 A 2022.12.30 CN 115545188 A 1.一种基于不确定性估计的多任务离线数据共享方法, 其特 征在于, 包括下列步骤: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 根据所述混合数据集进行离线策略学习, 包括: 根据所述混合数据集对多个值 函数网络进行训练并且生成多个预测结果; 使用所述多个预测结果的标准差进行不确定性计算; 以及 基于所述 不确定性计算的结果进行 策略学习。 2.根据权利要求1所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 利用所述多任务离线数据集进行 数据共享以生成混合数据集包括下列步骤: 在所述多个任务中选择主任务以及共享任务, 其中在学习所述主任务 时从所述共享任 务中共享数据; 对所述共享任务中数据进行奖励重标记, 其中将所述共享任务中样本的奖励根据 所述 主任务的奖励函数进行重新计算; 以及 将所述共享任务与所述主任务混合以生成混合数据集。 3.根据权利要求2所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 所述多个值函数网络包括相同的网络结构以及各不相同的初始 化参数, 其中对所述多个值 函数网络使用随机梯度法进行训练以估计值 函数的贝叶斯后验分布。 4.根据权利要求3所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 将值函数通过演说 ‑评论家模型进行学习, 并且通过贝尔曼算子进 行迭代, 其中包括下列步 骤: 将所述混合数据集中存储的的经验表示为状态转移元组(s, a, r, s ′)的集合, 其中s表 示状态、 a表示动作、 r 表示奖励以及s ′表示下一时刻状态; 根据贝尔曼算子设置值 函数Q(s, a)的学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′), 其中, r表示单步环境奖励、 γ表示奖励随时间变化的折扣因子、 a ′表示下一时刻的贪 心动作; 将贝尔曼损失L表示 为下式: L =(Q(s, a) ‑y)2; 以及 通过最小化损所述贝尔曼损失L以进行值 函数的训练。 5.根据权利要求4所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 使用所述多个预测结果的标准差对状态动作(s, a)的不确定性Γ(s, a)进行计算, 表 示为下 式: Γ(s, a)=Std(Qi(s, a)), 其中i∈[1, K]、 K表示 值函数网络的数量。 6.根据权利要求5所述的基于不确定性估计的多任务离线数据共享方法, 其特征在于, 基于所述 不确定性计算的结果进行 策略学习包括: 在值函数学习中使用不确定性计算的结果作为 惩罚重新设置学习目标y, 表示 为下式: y=r+γmaxa′Q(s′, a′)‑Γ(s′, a′); 以及 根据惩罚后的学习目标进行策略学习, 其中通过优化min  Qi来进行策略输出, i∈[1, K]。权 利 要 求 书 1/2 页 2 CN 115545188 A 27.一种基于不确定性估计的多任务离线数据共享系统, 其特 征在于, 该系统包括: 数据共享模块, 其被 配置为执 行下列动作: 提供多任务离线数据集, 所述多任务离线数据集包括多个任务; 以及 利用所述多任务离线数据集进行 数据共享以生成混合数据集; 以及 策略学习模块, 其被 配置为根据所述混合数据集进行离线策略学习。 8.根据权利要求7所述的基于不确定性估计的多任务离线数据共享系统, 其特征在于, 所述策略学习模块包括: 值函数学习模块, 其被配置为根据 所述混合数据集对多个值函数网络进行训练并且生 成多个预测结果; 不确定性度量模块, 其被配置为使用所述多个预测结果的标准差进行不确定性计算; 以及 策略学习模块, 其被 配置为基于所述 不确定性计算的结果进行 策略学习。 9.一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序在被处理器执 行时执行根据权利要求1 ‑6之一所述的方法的步骤。 10.一种计算机系统, 包括: 处理器, 其被 配置为执 行机器可 执行指令; 以及 存储器, 其上存储有机器可执行指令, 所述机器可执行指令在被处理器执行时执行根 据权利要求1 ‑6之一所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545188 A 3

PDF文档 专利 基于不确定性估计的多任务离线数据共享方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于不确定性估计的多任务离线数据共享方法及系统 第 1 页 专利 基于不确定性估计的多任务离线数据共享方法及系统 第 2 页 专利 基于不确定性估计的多任务离线数据共享方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。