专利一种基于因果强化学习的边缘缓存方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211136348.4 (22)申请日 2022.09.19 (71)申请人东南大学地址 211189 江苏省南京市江宁区东南大学路2号 (72)发明人刘升恒　傅凝宁　黄永明　杨绿溪　尤肖虎　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师秦秋星 (51)Int.Cl. H04L 67/1097(2022.01) H04W 8/20(2009.01) G06N 20/00(2019.01) G06N 7/00(2006.01) (54)发明名称一种基于因果强化学习的边缘缓存方法 (57)摘要本发明公开了一种基于因果强化学习的边缘缓存方法，在边缘缓存系统中，流行的内容可以缓存在网络边缘附近，例如基站中，这样可以大大减少网络的重复流量并缩短传输延迟，但是如何优化基站中缓存的内容是一个关键的问题。因此，本发明的方法利用了观察数据并考虑了隐藏状态的影响，通过优化基站中缓存的文件内容，最大化命中率，减少存储开销和延迟。相比于其他没有利用观察数据或没有考虑隐藏状态的方法，本发明的方法能够大大提高初始时刻的命中率。权利要求书3页说明书9页附图2页 CN 115460232 A 2022.12.09 CN 115460232 A 1.一种基于因果强化学习的边缘缓存方法，其特征在于，所述方法包括以下步骤：步骤S1、针对具有一个云服务器、 N个基站和N个用户群的边缘智能系统，构建其边缘缓存模型，其中一个基站对应一个用户群；步骤S2、将所述边缘缓存模型建模为一个部分可观察马尔可夫决策过程的强化学习问题，将N个用户群的文件请求分别建模为环境，每个基站建模为一个智能体，确定其状态集、观察集、动作集、奖励函数及最终的优化目标；优化其中一个基站对应的智能体gint的边缘缓存策略，其余基站对应的智能体gprv和用户群的交互数据作为观察数据；步骤S3、针对所述部分可观察马尔可夫决策过程的强化学习问题，利用观察数据并考虑隐藏状态，优化基于因果强化学习的边缘缓存策略。 2.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法，其特征在于，所述步骤S1中边缘缓存模型为：一个云服务器同时服务N个基站，云服务器中所有文件的总个数记为M，所有文件的集合记为F，第m个文件记为fm， fm∈F,m＝0,1,...,M的大小都相等，为B比特；每个基站服务一个对应的用户群，用户群之间没有重合也不会随着时间产生变化； N个基站的存储容量都相等，记为Sstation比特，且Sstation＜M·B；用户群本身没有存储容量；云服务器的服务总时长为T， N个用户群在每个时刻t∈T会对某个文件产生一个请求，记为rt，且rt∈F；用户群产生的请求rt不会上传到其对应的基站，用户群的请求对于基站是不可知的； N个基站都配备用户群请求预测机制，该机制能够实时预测用户群的请求rt，请求预测机制为：在t时刻，基站先进行用户群请求预测，得到预测结果如果该时刻基站存储的文件中含有对应的文件，即则基站在t时刻将传输给用户群；如果t时刻基站的存储文件中不包括即则基站产生一个请求向云服务器请求文件，云服务收到该请求后在t+1时刻将对应的文件传输给基站，此时用户群的请求rt+1＝rt，基站的用户群请求预测结果如果在t+1时刻基站的存储文件中包括则基站在t+1时刻将文件传输给用户群，否则将在t+2时刻继续向云服务器请求文件，直到基站的存储文件中包含为止，将用户群在这段时间的等待总时隙记为 ndelay。 3.根据权利要求2所述的一种基于因果强化学习的边缘缓存方法，其特征在于，在所述步骤S2中智能体gint边缘缓存策略中状态集、观察集、动作集和奖励函数如下：状态集：状态集定义为基站的存储状态和用户群的请求： S＝{st|t＝0,1,2,. ..T} (1) t时刻的状态定义为观察集：观察集定义为基站的存储状态 O＝{ot|t＝0,1,2,. ..T} (3) t时刻的观察定义为权　利　要　求　书 1/3 页 2 CN 115460232 A 2动作集：动作集定义为基站的动作 A＝{at|t＝0,1,2,. ..T} (5) 在t时刻，基站可以向云服务器请求增加一个文件，或者删除一个文件，或者不增加也不删除文件， t时刻的动作定义为： at＝[a1,a2,a3,...aM] (6) at中的每个元素的取值为 ‑1、 0或者1，若am＝‑1,m＝1,2,...M表示基站要从自己的存储空间中删除第m个文件fm；若am＝1,m＝1,2,...M则表示基站要向云服务器请求第m个文件fm 并存储到自己的存储空间中；若am＝0,m＝1,2,...M，则表示基站既不增加该文件，也不删除该文件；奖励函数：奖励函数由三个部分组成， t时刻的奖励函数ut表示为其中w1， w2和w3分别是三个部分的权重，有 w1+w2+w3＝1 (8) 而ht表示t时刻的命中率，定义如下是基站中存储的文件的个数， ndelay表示等待延迟；最终，边缘缓存的优化问题归纳为最大化每个回合的奖励总数，表示为： 4.根据权利要求1所述的一种基于因果强化学习的边缘缓存方法，其特征在于，所述步骤S3具体步骤包括：步骤S3.1、获取智能体gprv的观察数据和其自身与环境交互的干预数据；步骤S3.2、根据步骤S3.1中获取到的观察数据和干预数据，估计真实的环境模型；步骤S3.3、根据步骤S3.2所估计的环境模型，用基于环境模型的Actor ‑Critic方法训练需要优化缓存策略的基站，以获得最优边缘缓存策略。 5.根据权利要求4所述的一种基于因果强化学习的边缘缓存方法，其特征在于，所述步骤S3.1中，智能体gprv的缓存策略πprv(at|ht,st)包含τ个回合的观察数据Dobs是从具有下列分布的一个部分可观察马尔可夫决策过程中获取的： Dobs～pinit,ptrans,pobs, πprv (11) 其中， pinit表示状态的初始分布概率、 ptrans表示状态转移概率、 pobs表示观察概率， πprv 表示智能体gprv的策略；观察数据的具体形式为： Di＝(o0,a0,...,oT) (13) 包含k个回合的干预数据Dint是由一个带有随机策略π(at|ht)的智能体gint从标准部分权　利　要　求　书 2/3 页 3 CN 115460232 A 3

专利 一种基于因果强化学习的边缘缓存方法

专利一种基于因果强化学习的边缘缓存方法