全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210740846.3 (22)申请日 2022.06.27 (71)申请人 华中科技大 学 地址 430000 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 郑渤龙 马勇 万静意 郜勇勇  (74)专利代理 机构 成都众恒智合专利代理事务 所(普通合伙) 51239 专利代理师 张洪 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/29(2019.01) G06F 16/2455(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 10/04(2012.01) (54)发明名称 一种基于强化学习的路网最短路径距离计 算方法 (57)摘要 本发明公开了一种基于强化学习的路网最 短路径距离计算方法, 涉及计算机数据管理技术 领域, 包括: 将构建最短路径距离索引的过程转 化成马尔可夫决策过程; 基于马尔可夫决策过 程, 构建并训练基于强化学习的策略模型; 利用 策略模型构建层级结构的2 ‑hop label索引; 对 2‑hop label索引进行优化; 运用优 化后的2‑hop  label索引处理查询, 并返回查询结果。 本发明构 建的索引结构更均衡, 占用空间少, 查询速度更 快, 具有很强的实用性, 智能化高, 模型构建索引 的速度快, 泛化 性能好。 权利要求书2页 说明书9页 附图5页 CN 114996278 A 2022.09.02 CN 114996278 A 1.一种基于强化学习的路网最短路径 距离计算方法, 其特 征在于, 包括以下步骤: S1、 将构建最短路径 距离索引的过程 转化成马尔可 夫决策过程; S2、 基于马尔可 夫决策过程, 构建并训练基于强化学习的策略模型; S3、 利用策略模型构建层级结构的2 ‑hop label索引; S4、 对2‑hop label索引进行优化; S5、 运用优化后的2 ‑hop label索引处 理查询, 并返回查询结果。 2.根据权利要求1所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S1包括以下步骤: S11、 定义路网和最短路径查询; S12、 定义 树分解; S13、 基于路网、 最短路径查询和树分解, 定义马尔可 夫决策过程。 3.根据权利要求2所述基于强化学习的路网最短路径 距离计算方法, 其特 征在于, 在树分解的每一步, 都需从剩余未移除的节点中筛选出若干候选节点, 将所有候选节 点的特征拼接后构成马尔可 夫决策过程的状态; 用Vk={u1,…,uk}表示筛选出的k个候选节点, 一个马尔可夫决策过程的行为 a=j表示 从Vk中选择节点uj, 1≤j≤k; 采用同步参考法得到马尔可夫决策过程的奖励, 具体为: 在树分解的每一步中, 从候选 节点中选择节点移除的同时, 同步使用启发式的方法选择节点进行移除, 将该两种操作中 得到的结果差值作为奖励; 马尔可夫决策过程的状态转移表示为一个元组(s,a,s ′,r), 表示在当前状态s下选择 行为a, 进入下一个 状态s′并得到奖励r的过程。 4.根据权利要求3所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S2包括以下步骤: S21、 基于De ep Q Network构建基于强化学习的策略模型; S22、 基于马尔可 夫决策过程, 对策略模型进行训练。 5.根据权利要求4所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S22包括以下步骤: S221、 使用随机参数初始化行为网络Q(s,a; Θ), 目标网络 的参数初始和行 为网络保持一 致, 初始化经验 池M的容量为N; S222、 判断训练周期是否结束, 若结束, 则跳转至步骤S2 29, 否则继续执 行步骤S2 23; S223、 初始化路网, 得到第一个 状态; S224、 判断是否 达到终止状态, 若是, 则跳转至步骤S2 22, 否则继续执 行步骤S2 25; S225、 按照∈ ‑greedy的方式, 选择行为a, 得到状态s ′和奖励r, 存储状态转移元组(s, a,s′,r)到经验 池M; S226、 判断经验 池M是否达到容量N, 若是, 则继续执 行步骤S2 27, 否则跳转至步骤S2 24; S227、 从经验 池M随机采样一个batc h的状态转移元组训练行为网络Q(s,a; Θ); S228、 进入下一个 状态, 跳转至步骤S2 24; S229、 训练结束, 得到训练好的行为网络Q(s,a; Θ)。权 利 要 求 书 1/2 页 2 CN 114996278 A 26.根据权利要求5所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S3包括以下步骤: S31、 基于策略模型将路网转 化为树结构; S32、 对于树结构中的每一个树结点, 按照从上到下的方式计算基于层级结构的2 ‑hop  label索引。 7.根据权利要求6所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S31包括以下步骤: S311、 获取路网; S312、 根据路网构建倒排表; S313、 从倒排表中选出k个候选节点组成集合Vk, 计算各候选节点的特征值, 将各征值进 行拼接组成状态向量; S314、 将状态向量输入到策略模型, 选择奖励值最大的节点作为移除节点, 进行节点移 除操作和节点连接操作, 将移除节点从未删除节点 集合移动到已删除节点 集合; S315、 判断未删除节点集合是否为空集, 若是, 则输出各移除节点连接而成的树结构, 否则跳转至步骤S312。 8.根据权利要求7所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 索引 包括位置数组pos(v)和距离数组dis(v), 位置数组pos(v)存储的是步骤S31得到的树结构 的结点X(v)中所有节 点在树结构中的深度, 距离数 组dis(v)存储的是树结构的结点X(v)到 所有祖先节点的最短距离 。 9.根据权利要求8所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 所述 S4包括以下步骤: S41、 计算路网的图密度ρ, 公式如下: 其中, |E|为路网的边总数, |V|为路网的节点总数; S42、 选择对路网进行树分解的方法, 具体为: 设定图密度阈值ρθ, 当ρ ≤ρθ时, 使用最小 度的启发式方法对路网进行树分解, 当ρ >ρθ时, 使用强化学习的方法对路网进行树分解; S43、 对路网进行树分解, 在该过程 中, 对于路网中 同一条没有分叉的路径Line, 找到其 端点X(u), 并将端点X(u)的结点编号u存 储在该Line的位置数组pos(v)中; S44、 对于Line生成的单叉树, 将其 中所有祖先结点的高度, 依次存放于其位置数组pos (v)中; S45、 从树根到叶子, 依次计算Line中所有结点到单支树中祖先结点的最短路径距离, 并存放在距离数组dis(v)中, 此时, 2 ‑hop label索引的优化过程结束。 10.根据权利要求9所述基于强化学习的路网最短路径距离计算方法, 其特征在于, 在 步骤S5中, 查询过程包括非单支树结点之间的查询、 同一单支树结点之间的查询以及不同 单支树结点之间的查询。权 利 要 求 书 2/2 页 3 CN 114996278 A 3

.PDF文档 专利 一种基于强化学习的路网最短路径距离计算方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的路网最短路径距离计算方法 第 1 页 专利 一种基于强化学习的路网最短路径距离计算方法 第 2 页 专利 一种基于强化学习的路网最短路径距离计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:10:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。