专利 基于不确定性估计的多任务离线数据共享方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211307085.9 (22)申请日 2022.10.24 (71)申请人上海人工智能创新中心地址 200232 上海市徐汇区云锦路701号 37、 38层 (72)发明人李学龙　白辰甲　王震　 (74)专利代理机构上海智晟知识产权代理事务所(特殊普通合伙) 31313 专利代理师李镝的 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称基于不确定性估计的多任务离线数据共享方法及系统 (57)摘要本发明总的来说涉及强化学习技术领域，提出一种基于不确定性估计的多任务离线数据共享方法及系统。该方法包括：提供多任务离线数据集，所述多任务离线数据集包括多个任务；利用所述多任务离线数据集进行数据共享以生成混合数据集；根据所述混合数据集进行离线策略学习，其中包括：根据所述混合数据集对多个值函数网络进行训练并且生成多个预测结果；使用所述多个预测结果的标准差进行不确定性计算；以及基于所述不确定性计算的结果进行策略学习。本发明大大提升了数据共享的效率、创造性地使用近似贝叶斯后验来衡量数据的不确定性符合离线强化学习的应用场景并且可以用于大规模的机器人任务。权利要求书2页说明书8页附图3页 CN 115545188 A 2022.12.30 CN 115545188 A 1.一种基于不确定性估计的多任务离线数据共享方法，其特征在于，包括下列步骤：提供多任务离线数据集，所述多任务离线数据集包括多个任务；利用所述多任务离线数据集进行数据共享以生成混合数据集；以及根据所述混合数据集进行离线策略学习，包括：根据所述混合数据集对多个值函数网络进行训练并且生成多个预测结果；使用所述多个预测结果的标准差进行不确定性计算；以及基于所述不确定性计算的结果进行策略学习。 2.根据权利要求1所述的基于不确定性估计的多任务离线数据共享方法，其特征在于，利用所述多任务离线数据集进行数据共享以生成混合数据集包括下列步骤：在所述多个任务中选择主任务以及共享任务，其中在学习所述主任务时从所述共享任务中共享数据；对所述共享任务中数据进行奖励重标记，其中将所述共享任务中样本的奖励根据所述主任务的奖励函数进行重新计算；以及将所述共享任务与所述主任务混合以生成混合数据集。 3.根据权利要求2所述的基于不确定性估计的多任务离线数据共享方法，其特征在于，所述多个值函数网络包括相同的网络结构以及各不相同的初始化参数，其中对所述多个值函数网络使用随机梯度法进行训练以估计值函数的贝叶斯后验分布。 4.根据权利要求3所述的基于不确定性估计的多任务离线数据共享方法，其特征在于，将值函数通过演说 ‑评论家模型进行学习，并且通过贝尔曼算子进行迭代，其中包括下列步骤：将所述混合数据集中存储的的经验表示为状态转移元组(s， a， r， s ′)的集合，其中s表示状态、 a表示动作、 r 表示奖励以及s ′表示下一时刻状态；根据贝尔曼算子设置值函数Q(s， a)的学习目标y，表示为下式： y＝r+γmaxa′Q(s′， a′)，其中， r表示单步环境奖励、 γ表示奖励随时间变化的折扣因子、 a ′表示下一时刻的贪心动作；将贝尔曼损失L表示为下式： L ＝(Q(s， a) ‑y)2；以及通过最小化损所述贝尔曼损失L以进行值函数的训练。 5.根据权利要求4所述的基于不确定性估计的多任务离线数据共享方法，其特征在于，使用所述多个预测结果的标准差对状态动作(s， a)的不确定性Γ(s， a)进行计算，表示为下式： Γ(s， a)＝Std(Qi(s， a))，其中i∈[1， K]、 K表示值函数网络的数量。 6.根据权利要求5所述的基于不确定性估计的多任务离线数据共享方法，其特征在于，基于所述不确定性计算的结果进行策略学习包括：在值函数学习中使用不确定性计算的结果作为惩罚重新设置学习目标y，表示为下式： y＝r+γmaxa′Q(s′， a′)‑Γ(s′， a′)；以及根据惩罚后的学习目标进行策略学习，其中通过优化min Qi来进行策略输出， i∈[1， K]。权　利　要　求　书 1/2 页 2 CN 115545188 A 27.一种基于不确定性估计的多任务离线数据共享系统，其特征在于，该系统包括：数据共享模块，其被配置为执行下列动作：提供多任务离线数据集，所述多任务离线数据集包括多个任务；以及利用所述多任务离线数据集进行数据共享以生成混合数据集；以及策略学习模块，其被配置为根据所述混合数据集进行离线策略学习。 8.根据权利要求7所述的基于不确定性估计的多任务离线数据共享系统，其特征在于，所述策略学习模块包括：值函数学习模块，其被配置为根据所述混合数据集对多个值函数网络进行训练并且生成多个预测结果；不确定性度量模块，其被配置为使用所述多个预测结果的标准差进行不确定性计算；以及策略学习模块，其被配置为基于所述不确定性计算的结果进行策略学习。 9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据权利要求1 ‑6之一所述的方法的步骤。 10.一种计算机系统，包括：处理器，其被配置为执行机器可执行指令；以及存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权利要求1 ‑6之一所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115545188 A 3

专利 基于不确定性估计的多任务离线数据共享方法及系统

专利基于不确定性估计的多任务离线数据共享方法及系统