(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211136348.4
(22)申请日 2022.09.19
(71)申请人 东南大学
地址 211189 江苏省南京市江宁区东 南大
学路2号
(72)发明人 刘升恒 傅凝宁 黄永明 杨绿溪
尤肖虎
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 秦秋星
(51)Int.Cl.
H04L 67/1097(2022.01)
H04W 8/20(2009.01)
G06N 20/00(2019.01)
G06N 7/00(2006.01)
(54)发明名称
一种基于因果强化学习的边 缘缓存方法
(57)摘要
本发明公开了一种基于因果强化学习的边
缘缓存方法, 在边缘缓存系统中, 流行的内容可
以缓存在网络边缘附近, 例如基站中, 这样可 以
大大减少网络的重复流量并缩短传输延迟, 但是
如何优化基站中缓存的内容是一个 关键的问题。
因此, 本发 明的方法利用了观 察数据并考虑了隐
藏状态的影响, 通过优化基站中缓存的文件内
容, 最大化命中率, 减少存储开销和延 迟。 相比于
其他没有利用观察数据或没有考虑隐藏状态的
方法, 本发 明的方法能够大大提高初始时刻的命
中率。
权利要求书3页 说明书9页 附图2页
CN 115460232 A
2022.12.09
CN 115460232 A
1.一种基于因果强化学习的边 缘缓存方法, 其特 征在于, 所述方法包括以下步骤:
步骤S1、 针对具有一个云服务器、 N个基站和N个用户群的边缘智能系统, 构 建其边缘缓
存模型, 其中一个 基站对应一个用户群;
步骤S2、 将所述边缘缓存模型建模为一个部分可观察马尔可夫 决策过程的强化学习问
题, 将N个用户群的文件请求分别建模为环 境, 每个基站建模为一个智能体, 确定其状态 集、
观察集、 动作集、 奖励函数及最终的优化目标; 优化其中一个基站对应的智能体gint的边缘
缓存策略, 其 余基站对应的智能体gprv和用户群的交 互数据作为观察数据;
步骤S3、 针对所述部分可观察马尔可夫决策过程的强化学习问题, 利用观察数据并考
虑隐藏状态, 优化基于因果强化学习的边 缘缓存策略。
2.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步
骤S1中边 缘缓存模型为:
一个云服务器同时服务N个基站, 云服务器中所有文件的总个数记为M, 所有文件的集
合记为F, 第m个文件记为fm, fm∈F,m=0,1,...,M的大小都相等, 为B比特; 每个基站服务一
个对应的用户群, 用户群之 间没有重合也不会随着时间产生变化; N个基站的存储容量 都相
等, 记为Sstation比特, 且Sstation<M·B; 用户群本身没有存 储容量;
云服务器的服务总时长为T, N个用户群在每个时刻t∈T会对某个文件产生一个请求,
记为rt, 且rt∈F; 用户群产生的请求rt不会上传到其对应的基站, 用户群的请求对于基站是
不可知的;
N个基站都配备用户群请求预测机制, 该机制能够实时预测用户群的请求rt, 请求预测
机制为: 在t时刻, 基站先进行用户群请求预测, 得到预测结果
如果该时刻 基站存储的文
件
中含有
对应的文件, 即
则基站在t时刻将
传输给用户群;
如果t时刻基站的存储文件
中不包括
即
则基站产生一个请求
向云服务器请求文件, 云服务收到该请求后在t+1时刻将对应的文件
传输给基站, 此时
用户群的请求rt+1=rt, 基站的用户群请求预测结果
如果在t+1时刻基站的存储文件
中包括
则基站在t+1时刻将文件
传输给用
户群, 否则将在t+2时刻继续向云服务器请求文件, 直到基站的存储文件
中包含
为
止, 将用户群在这段时间的等待总时隙记为 ndelay。
3.根据权利要求2所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 在所述
步骤S2中智能体gint边缘缓存策略中状态集、 观察 集、 动作集和奖励函数如下:
状态集: 状态集定义 为基站的存 储状态和用户群的请求:
S={st|t=0,1,2,. ..T} (1)
t时刻的状态定义 为
观察集: 观察集定义为基站的存 储状态
O={ot|t=0,1,2,. ..T} (3)
t时刻的观察定义 为权 利 要 求 书 1/3 页
2
CN 115460232 A
2动作集: 动作集定义 为基站的动作
A={at|t=0,1,2,. ..T} (5)
在t时刻, 基站可以向云服务器请求增加一个文件, 或者删除一个文件, 或者不增加也
不删除文件, t时刻的动作定义 为:
at=[a1,a2,a3,...aM] (6)
at中的每个元素的取值为 ‑1、 0或者1, 若am=‑1,m=1,2,...M表示基站要从自己的存储
空间中删除第m个文件fm; 若am=1,m=1,2,...M则表示基站要向云服务器请求第m个文件fm
并存储到 自己的存储空间中; 若am=0,m=1,2,...M, 则表示基站既不增加该文件, 也不删
除该文件;
奖励函数: 奖励函数由三个部分组成, t时刻的奖励函数ut表示为
其中w1, w2和w3分别是三个部分的权 重, 有
w1+w2+w3=1 (8)
而ht表示t时刻的命中率, 定义如下
是基站中存 储的文件的个数, ndelay表示等待延迟;
最终, 边缘缓存的优化问题归纳为 最大化每 个回合的奖励总数, 表示 为:
4.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步
骤S3具体步骤 包括:
步骤S3.1、 获取智能体gprv的观察数据和其自身与环境交 互的干预 数据;
步骤S3.2、 根据步骤S3.1中获取到的观察数据和干预 数据, 估计真实的环境模型;
步骤S3.3、 根据步骤S3.2所估计的环境模型, 用基于环境模型的Actor ‑Critic方法训
练需要优化缓存策略的基站, 以获得最优边 缘缓存策略。
5.根据权利要求4所述的一种基于因果强化学习的边缘缓存方法, 其特征在于, 所述步
骤S3.1中, 智能体gprv的缓存策略πprv(at|ht,st)包含τ个回合的观察数据Dobs是从具有下列
分布的一个部分可观察马尔可 夫决策过程中获取的:
Dobs~pinit,ptrans,pobs, πprv (11)
其中, pinit表示状态的初始分布概率、 ptrans表示状态转移概率、 pobs表示观察概率, πprv
表示智能体gprv的策略;
观察数据的具体形式为:
Di=(o0,a0,...,oT) (13)
包含k个回合的干预数据Dint是由一个带有随机策 略π(at|ht)的智能体gint从标准部分权 利 要 求 书 2/3 页
3
CN 115460232 A
3
专利 一种基于因果强化学习的边缘缓存方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:10:00上传分享