全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211136348.4 (22)申请日 2022.09.19 (71)申请人 东南大学 地址 211189 江苏省南京市江宁区东 南大 学路2号 (72)发明人 刘升恒 傅凝宁 黄永明 杨绿溪  尤肖虎  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师 秦秋星 (51)Int.Cl. H04L 67/1097(2022.01) H04W 8/20(2009.01) G06N 20/00(2019.01) G06N 7/00(2006.01) (54)发明名称 一种基于因果强化学习的边 缘缓存方法 (57)摘要 本发明公开了一种基于因果强化学习的边 缘缓存方法, 在边缘缓存系统中, 流行的内容可 以缓存在网络边缘附近, 例如基站中, 这样可 以 大大减少网络的重复流量并缩短传输延迟, 但是 如何优化基站中缓存的内容是一个 关键的问题。 因此, 本发 明的方法利用了观 察数据并考虑了隐 藏状态的影响, 通过优化基站中缓存的文件内 容, 最大化命中率, 减少存储开销和延 迟。 相比于 其他没有利用观察数据或没有考虑隐藏状态的 方法, 本发 明的方法能够大大提高初始时刻的命 中率。 权利要求书3页 说明书9页 附图2页 CN 115460232 A 2022.12.09 CN 115460232 A 1.一种基于因果强化学习的边 缘缓存方法, 其特 征在于, 所述方法包括以下步骤: 步骤S1、 针对具有一个云服务器、 N个基站和N个用户群的边缘智能系统, 构 建其边缘缓 存模型, 其中一个 基站对应一个用户群; 步骤S2、 将所述边缘缓存模型建模为一个部分可观察马尔可夫 决策过程的强化学习问 题, 将N个用户群的文件请求分别建模为环 境, 每个基站建模为一个智能体, 确定其状态 集、 观察集、 动作集、 奖励函数及最终的优化目标; 优化其中一个基站对应的智能体gint的边缘 缓存策略, 其 余基站对应的智能体gprv和用户群的交 互数据作为观察数据; 步骤S3、 针对所述部分可观察马尔可夫决策过程的强化学习问题, 利用观察数据并考 虑隐藏状态, 优化基于因果强化学习的边 缘缓存策略。 2.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步 骤S1中边 缘缓存模型为: 一个云服务器同时服务N个基站, 云服务器中所有文件的总个数记为M, 所有文件的集 合记为F, 第m个文件记为fm, fm∈F,m=0,1,...,M的大小都相等, 为B比特; 每个基站服务一 个对应的用户群, 用户群之 间没有重合也不会随着时间产生变化; N个基站的存储容量 都相 等, 记为Sstation比特, 且Sstation<M·B; 用户群本身没有存 储容量; 云服务器的服务总时长为T, N个用户群在每个时刻t∈T会对某个文件产生一个请求, 记为rt, 且rt∈F; 用户群产生的请求rt不会上传到其对应的基站, 用户群的请求对于基站是 不可知的; N个基站都配备用户群请求预测机制, 该机制能够实时预测用户群的请求rt, 请求预测 机制为: 在t时刻, 基站先进行用户群请求预测, 得到预测结果 如果该时刻 基站存储的文 件 中含有 对应的文件, 即 则基站在t时刻将 传输给用户群; 如果t时刻基站的存储文件 中不包括 即 则基站产生一个请求 向云服务器请求文件, 云服务收到该请求后在t+1时刻将对应的文件 传输给基站, 此时 用户群的请求rt+1=rt, 基站的用户群请求预测结果 如果在t+1时刻基站的存储文件 中包括 则基站在t+1时刻将文件 传输给用 户群, 否则将在t+2时刻继续向云服务器请求文件, 直到基站的存储文件 中包含 为 止, 将用户群在这段时间的等待总时隙记为 ndelay。 3.根据权利要求2所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 在所述 步骤S2中智能体gint边缘缓存策略中状态集、 观察 集、 动作集和奖励函数如下: 状态集: 状态集定义 为基站的存 储状态和用户群的请求: S={st|t=0,1,2,. ..T}                           (1) t时刻的状态定义 为 观察集: 观察集定义为基站的存 储状态 O={ot|t=0,1,2,. ..T}                           (3) t时刻的观察定义 为权 利 要 求 书 1/3 页 2 CN 115460232 A 2动作集: 动作集定义 为基站的动作 A={at|t=0,1,2,. ..T}                           (5) 在t时刻, 基站可以向云服务器请求增加一个文件, 或者删除一个文件, 或者不增加也 不删除文件, t时刻的动作定义 为: at=[a1,a2,a3,...aM]                            (6) at中的每个元素的取值为 ‑1、 0或者1, 若am=‑1,m=1,2,...M表示基站要从自己的存储 空间中删除第m个文件fm; 若am=1,m=1,2,...M则表示基站要向云服务器请求第m个文件fm 并存储到 自己的存储空间中; 若am=0,m=1,2,...M, 则表示基站既不增加该文件, 也不删 除该文件; 奖励函数: 奖励函数由三个部分组成, t时刻的奖励函数ut表示为 其中w1, w2和w3分别是三个部分的权 重, 有 w1+w2+w3=1                              (8) 而ht表示t时刻的命中率, 定义如下 是基站中存 储的文件的个数, ndelay表示等待延迟; 最终, 边缘缓存的优化问题归纳为 最大化每 个回合的奖励总数, 表示 为: 4.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步 骤S3具体步骤 包括: 步骤S3.1、 获取智能体gprv的观察数据和其自身与环境交 互的干预 数据; 步骤S3.2、 根据步骤S3.1中获取到的观察数据和干预 数据, 估计真实的环境模型; 步骤S3.3、 根据步骤S3.2所估计的环境模型, 用基于环境模型的Actor ‑Critic方法训 练需要优化缓存策略的基站, 以获得最优边 缘缓存策略。 5.根据权利要求4所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步 骤S3.1中, 智能体gprv的缓存策略πprv(at|ht,st)包含τ个回合的观察数据Dobs是从具有下列 分布的一个部分可观察马尔可 夫决策过程中获取的: Dobs~pinit,ptrans,pobs, πprv                         (11) 其中, pinit表示状态的初始分布概率、 ptrans表示状态转移概率、 pobs表示观察概率, πprv 表示智能体gprv的策略; 观察数据的具体形式为: Di=(o0,a0,...,oT)                            (13) 包含k个回合的干预数据Dint是由一个带有随机策 略π(at|ht)的智能体gint从标准部分权 利 要 求 书 2/3 页 3 CN 115460232 A 3

.PDF文档 专利 一种基于因果强化学习的边缘缓存方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于因果强化学习的边缘缓存方法 第 1 页 专利 一种基于因果强化学习的边缘缓存方法 第 2 页 专利 一种基于因果强化学习的边缘缓存方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。