全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210554362.X (22)申请日 2022.05.20 (71)申请人 北京航空航天大 学杭州创新研究院 地址 310000 浙江省杭州市滨江区长河街 道创慧街18号 申请人 郑州大学产业技术研究院有限公司 (72)发明人 任涛 姚依明 牛建伟 孙钢灿  谷宁波 何航 邱源  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 张欣欣 (51)Int.Cl. G06F 9/445(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的快速适应模型构建方 法及相关装置 (57)摘要 本申请提供一种应用于模型训练设备的基 于深度强化学习的快速适应模型构建方法及相 关装置, 用于训练出能够适应不同边缘计算场景 的元模型。 该方法中, 模型训练设备配置有主模 型以及与主模 型具有相同结构的多个辅助模型, 而多个辅助模型分别用于适应不同类型的移动 边缘计算场景。 该模型训练设备从多个辅助模型 中选取一个作为目标模型; 将当前的主模型同步 至目标模型; 获取目标模型训练期间产生多个模 型损失; 根据多个模型损失, 更新主模型。 重复以 上步骤, 直到当前的主模型满足预设收敛条件, 则将当前的主模型作为不同类型的移动边缘计 算场景的元模型; 如此, 使得训练出的元模型具 有泛化性和对新环境的适应性。 权利要求书2页 说明书14页 附图3页 CN 115408072 A 2022.11.29 CN 115408072 A 1.一种基于深度强化学习的快速适应模型构建方法, 其特征在于, 应用于模型训练设 备, 所述模型训练设备配置有主模型以及与所述主模型具有相同结构的多个辅助模型, 其 中, 所述多个辅助模型分别用于适应不同类型的移动边 缘计算场景, 所述方法包括: 从所述多个辅助模型中选取一个作为目标模型; 将当前的所述主模型同步至所述目标模型; 通过所述目标模型训练期间产生多个模型损失, 更新所述主模型; 获取当前的所述主模型的状态信息; 若所述状态信 息不满足预设 收敛条件, 则返回所述从所述多个辅助模型中选取一个作 为目标模型的步骤进行 执行; 若所述状态信 息满足预设 收敛条件, 则将当前的所述主模型作为所述不同类型的移动 边缘计算场景 下的元模型。 2.根据权利要求1所述的基于深度强化学习的快速适应模型构建方法, 其特征在于, 所 述方法还 包括: 通过目标场景下的训练数据对所述元模型进行训练, 获得适应所述目标场景的任务计 算模型。 3.根据权利要求1所述的基于深度强化学习的快速适应模型构建方法, 其特征在于, 所 述通过所述目标模型训练期间产生多个模型损失, 更新所述主模型, 包括: 获取目标模型训练期间产生多个模型损失; 根据所述多个模型损失各自的权 重, 获得所述多个模型损失的加权损失; 根据所述加权损失更新所述主模型; 若所述目标模型的迭代周期不满足预设终止条件, 则获取 所述目标模型的训练时长; 若所述训练时长达到同步周期, 则在将当前主模型同步至所述目标模型之后, 返回所 述获取目标模型训练期间产生多个模型损失的步骤执 行; 若所述训练时未长达到同步周期, 返回所述获取目标模型训练期间产生多个模型损失 的步骤执 行; 若所述目标模型的迭代周期满足预设终止条件, 则执行所述获取当前的所述主模型的 状态信息的步骤。 4.根据权利要求3所述的基于深度强化学习的快速适应模型构建方法, 其特征在于, 将 所述多个模型损失各自的权重按照所述多个模型损失产生时间的先后循序进 行排序时, 所 述多个模型损失各自的权 重呈现先增大后减小的趋势。 5.根据权利要求3所述的基于深度强化学习的快速适应模型构建方法, 其特征在于, 所 述移动边缘计算场景包括多个移动终端以及边缘服务器, 所述目标模型为MADDPG模型结 构, 用于生成所述多个移动 终端与所述边缘服务器之间的任务卸载策略, 所述获取目标模 型训练期间产生多个模型损失, 包括: 迭代执行所述目标模型的训练步骤, 获得所述多个模型损失, 其中, 所述目标模型的训 练步骤, 包括: 通过经验池收集所述目标模型为所述多个移动终端生成的任务卸载 策略; 从所述经验 池采样获得样本策略集; 根据所述样本策略集, 计算所述目标模型的模型损失;权 利 要 求 书 1/2 页 2 CN 115408072 A 2根据所述模型损失更新所述目标模型。 6.根据权利要求5所述的基于深度强化学习的快速适应模型构建方法, 其特征在于, 所 述根据所述样本策略集, 计算所述目标模型的模型损失, 包括: 分别将所述样本策略集中的每个任务卸载策略与 预设约束条件进行比较, 获得所述样 本策略集中的每 个任务卸载 策略违背的预设约束条件; 分别根据 所述样本策略集中的每个任务卸载策略违背的预设约束条件, 获得所述样本 策略集中的每 个任务卸载 策略的即时奖励; 根据所述样本策略集中的每个任务卸载策略的即时奖励, 获得所述目标模型的模型损 失。 7.根据权利要求所述的基于深度强化学习的快速适应模型构建方法, 所述通过经验池 收集所述目标模型为所述多个移动终端生成的任务卸载 策略, 包括: 对于每个所述移动终端, 获取 所述目标模型为所述移动终端生成的初始卸载 策略; 根据所述移动终端的历史运动信 息以及历史任务的卸载结果, 确定所述移动终端对算 力的需求 程度; 根据所述需求程度调整所述初始卸载策略中的算力分配结果, 获得修正后的任务卸载 策略; 将所述任务卸载 策略缓存至所 经验池。 8.一种基于深度强化学习的快速适应模型构建装置, 其特征在于, 应用于模型训练设 备, 所述模型训练设备配置有主模型以及与所述主模型具有相同结构的多个辅助模型, 其 中, 所述多个辅助模型分别用于适应不同类型的移动边 缘计算场景, 所述装置包括: 模型筛选模块, 用于从所述多个辅助模型中选取一个作为目标模型; 模型训练模块, 用于将当前的所述主模型同步至所述目标模型; 所述模型训练模块, 还用于通过所述目标模型训练期间产生多个模型损 失, 更新所述 主模型; 模型迭代模块, 用于获取当前的所述主模型的状态信息; 所述模型迭代模块, 还用于若所述状态信息不满足预设收敛条件, 则返回所述从所述 多个辅助模型中选取一个作为目标模型的步骤进行 执行; 所述模型迭代模块, 还用于若所述状态信息满足预设收敛条件, 则将当前的所述主模 型作为所述 不同类型的移动边 缘计算场景 下的元模型。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存存储有计算机 程序, 所述计算机程序被所述处理器执行时, 实现权利要求 1‑7任意一项 所述的基于深度强 化学习的快速适应模型构建方法。 10.一种模型训练设备, 其特征在于, 所述模型训练设备包括处理器以及存储器, 所述 存储器存储有计算机程序, 所述计算机程序被所述处理器执行时, 实现权利要求 1‑7任意一 项所述的基于深度强化学习的快速适应模型构建方法。权 利 要 求 书 2/2 页 3 CN 115408072 A 3

.PDF文档 专利 基于深度强化学习的快速适应模型构建方法及相关装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的快速适应模型构建方法及相关装置 第 1 页 专利 基于深度强化学习的快速适应模型构建方法及相关装置 第 2 页 专利 基于深度强化学习的快速适应模型构建方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:04:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。