(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111386665.7
(22)申请日 2021.11.22
(65)同一申请的已公布的文献号
申请公布号 CN 114143710 A
(43)申请公布日 2022.03.04
(73)专利权人 武汉大学
地址 430072 湖北省武汉市武昌区珞珈山
武汉大学
(72)发明人 张健 徐连
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 胡琦旖
(51)Int.Cl.
H04W 4/02(2018.01)
H04W 4/021(2018.01)
H04W 64/00(2009.01)
G06N 20/00(2019.01)(56)对比文件
CN 109190 537 A,2019.01.1 1
CN 111861159 A,2020.10.3 0
CN 101132363 A,2008.02.27
CN 113473480 A,2021.10.01
US 2021089 910 A1,2021.0 3.25
EP 3579154 A1,2019.12.1 1
KR 20190131267 A,2019.1 1.26
Huang lu.I ndoor Positi oning
Technology based o n Deep Neural Netw orks.
《2018 Ubiquitous Positi oning, Indoor
Navigation and Location-Based Services
(UPINLBS)》 .2018,
何涛; 张健.一种基 于分布式子空间的共享
单车定位算法. 《现代电子技 术》 .2018,
晋帅等.基 于强化学习的两 轮模型车控制仿
真分析. 《测控技 术》 .2019,(第12期),
审查员 石霞
(54)发明名称
一种基于强化学习的无线定位方法及系统
(57)摘要
本发明属于强化学习技术领域, 公开了一种
基于强化学习的无线定位方法及系统。 本发明能
够根据训练好的第一阶段位置预测模型得到第
一阶段位置预测结果, 使用强化学习算法方法进
行第一阶段位置预测结果的修正, 得到第二阶段
位置预测结果。 本发明通过 强化学习的方法能够
在线自动地进行位置预测与模型训练, 能够提高
无线定位的准确度, 解决了传统定位方法无法在
大数据场景 下进行高准确度定位的问题。
权利要求书3页 说明书8页 附图2页
CN 114143710 B
2022.10.04
CN 114143710 B
1.一种基于强化学习的无线定位方法, 其特 征在于, 包括以下步骤:
步骤1、 收集获取多个用户的终端信息, 并划分为训练集和测试集; 每个用户的终端信
息包括该用户的基站信息和该用户的位置信息, 所述基站信息包括与该用户相邻的n个基
站的标签和信号强度, 所述 位置信息为 二维坐标;
步骤2、 建立第一阶段位置预测模型, 将所述基站信息作为模型的输入, 将所述位置信
息作为模型 的输出, 利用所述训练集对所述第一阶段位置预测模型进行训练, 利用所述测
试集对所述第一阶段位置预测模型进行测试, 得到训练好的第一阶段位置预测模型;
步骤3、 根据收集到的所有用户的位置信 息得到地图区域信 息; 所述地图区域信 息包括
m个区域格点;
步骤4、 根据所述地图区域信息建立强化学习模型, 并初始化Q矩阵、 状态向量S、 行动向
量A和奖励矩阵R, 设置超参数;
所述Q矩阵为二维矩阵, 行为状态空间, 列为动作空间; 每一行对应一个区域格点的位
置预测结果的修正向量, 每一列对应一种行动; 所述奖励矩阵R 中的每个元素分别代表一个
区域格点对应的奖励值;
行动包括代表位置预测结果 向西修正的第一行动A1、 代表位置预测结果 向北修正的第
二行动A2、 代表位置预测结果向东修正的第三行动A3和代表位置预测结果向南修正的第四
行动A4; 初始化时, 将所述Q矩阵的值设为0, 将所述奖励矩阵R设为0; 所述超参数包括探索
次数、 迭代轮次、 学习率α 、 折扣因子γ和贪婪因子 ε;
步骤5、 将待定位用户的基站信息输入至所述训练好的第 一阶段位置预测模型, 所述训
练好的第一阶段位置预测模型输出待定位用户的位置信息, 并作为第一阶段位置预测结
果;
步骤6、 将所述第一阶段位置预测结果输入至所述强化学习模型, 所述强化学习模型基
于所述地图区域信息, 将所述第一 阶段位置预测结果转换为对应的区域格点坐标, 将得到
的区域格点坐标与Q矩阵中对应状态的修正向量进行矢量加法的操作, 得到第二阶段位置
预测结果, 并传输 至待定位用户。
2.根据权利要求1所述的基于强化学习的无线定位方法, 其特征在于, 还包括以下步
骤:
步骤7、 待定位用户根据 所述第二阶段位置预测结果在终端上进行标定, 得到标定的真
实坐标;
步骤8、 将所述标定的真实坐标传输至所述强化学习模型, 所述强化学习模型基于所述
标定的真实坐标和所述第二阶段位置预测结果进行 再训练。
3.根据权利要求1所述的基于强化学习的无线定位方法, 其特征在于, 所述步骤2中, 使
用随机森林回归 模型建立所述第一阶段位置预测模型。
4.根据权利要求1所述的基于强化学习的无线定位方法, 其特征在于, 所述步骤3 中, 在
收集到的所有用户的二维坐标中找出边界坐标, 基于所述边界坐标构建地图的边界, 将地
图按照相同大小面积划分为m个区域格点, 每 个区域格点对应一个区域格点 坐标。
5.根据权利要求2所述的基于强化学习的无线定位方法, 其特征在于, 所述步骤8中, 将
所述第二阶段位置预测结果与所述标定的真实坐标, 分别进行横坐标和纵坐标的减法操
作, 得到相对的位置误差向量; 基于所述相对的位置误差向量, 对所述第一阶段位置预测结权 利 要 求 书 1/3 页
2
CN 114143710 B
2果对应的区域格点周围的区域格点的奖励值进行更新; 更新奖励矩阵R后, 对Q矩阵进行再
训练。
6.根据权利要求5所述的基于强化学习的无线定位方法, 其特征在于, 对奖励值进行更
新的具体方式为:
若所述相对的位置误差向量的横坐标为正, 则将所述第 一阶段位置预测结果对应的区
域格点的西边相邻的区域格点的奖励值加上 所述相对的位置误差向量的横坐标的值;
若所述相对的位置误差向量的横坐标为负, 则将所述第 一阶段位置预测结果对应的区
域格点的东 边相邻的区域格点的奖励值加上 所述相对的位置误差向量的横坐标的绝对值;
若所述相对的位置误差向量的纵坐标为正, 则将所述第 一阶段位置预测结果对应的区
域格点的南 边相邻的区域格点的奖励值加上 所述相对的位置误差向量的纵坐标的值;
若所述相对的位置误差向量的纵坐标为负, 则将所述第 一阶段位置预测结果对应的区
域格点的北边相邻的区域格点的奖励值加上 所述相对的位置误差向量的纵坐标的绝对值。
7.根据权利要求5所述的基于强化学习的无线定位方法, 其特征在于, 在Q矩阵的每一
次的迭代中进行如下操作:
(1)选择一个 状态S;
(2)重复如下 过程直到状态到 达终止状态或者超出探索次数:
初始化一个随机数, 随机数的取值范围为[0,1]; 如果随机数小于等于贪婪因子, 则随
机选择行动Ai, i的取值范围为[1,4], 且为整数; 如果随机数大于贪婪因子, 则选择状态S行
中Q值最大的元素对应的行动Ai, 并在当前状态采取此行动得到一个新的状态S ’, 更新Q矩
阵和状态S;
其中, 所述终止状态为奖励矩阵中奖励值 最大的状态;
更新Q矩阵和状态S如下式所示:
其中, St表示t时刻的状态, At表示t时刻在状态St下采取的动作; St+1表示采取完At动作
后的t+1时刻的状态, 即新的状态S ’; At+1表示t+1时刻在状态St+1下采取的动作, R(St+1)表示
St+1的奖励值, α 表示学习率, γ表示折扣因子; A(St+1)表示t+1时刻, 在St+1状态下可以采取
的行动集合;
表示在t+1时刻的状态St+1下, 从三种不同行动的Q值中选择
最大的那个Q值; Q(St,At)代表在状态St下采取行动At的Q值, Q(St+1,At+1)代表在状态St+1下
采取行动At+1的Q值。
8.一种基于强化学习的无线定位系统, 其特 征在于, 包括:
数据收集模块, 用于收集获取多个用户的终端信息;
地图区域构建模块, 用于根据收集到的所有用户的位置信息得到地图区域信息;
第一阶段位置预测模型训练模块, 用于接收收集阶段的用户的终端信息, 将其中的基
站信息作为第一阶段位置预测模型的输入, 将其中的位置信息作为所述第一阶段位置预测
模型的输出, 对所述第一阶段位置预测模型进行训练, 得到训练好的第一阶段位置预测模
型;
第一阶段位置预测模型预测模块, 用于接收待定位用户的基站信息, 并作为所述训练
好的第一阶段位置预测模型的输入, 然后所述训练好的第一阶段位置预测模型输出待定位权 利 要 求 书 2/3 页
3
CN 114143710 B
3
专利 一种基于强化学习的无线定位方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 18:59:23上传分享