(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210402614.7
(22)申请日 2022.04.18
(71)申请人 中国海洋石油集团有限公司
地址 100020 北京市东城区朝阳门北 大街
25号
申请人 中海石油 (中国) 有限公司海南分公
司
中海油 (广东) 安全健康科技有限责
任公司
(72)发明人 张秀林 吕劲 梁海波 张林
武永锋 易涤非 王庆瑞 冯猛
范志锋 张湘跃 陈土顺 王斌
杨贵光 杨欣欣 宾志湘 林梓淇
彭卫芳 (74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 余凯欢
(51)Int.Cl.
G06F 16/23(2019.01)
G06F 16/27(2019.01)
(54)发明名称
一种基于众包的定位指纹库更新方法及装
置
(57)摘要
本发明公开了一种基于众包的定位指纹库
更新方法及装置, 方法包括: 初始化经验回放池;
初始化Online Critic网络和Online Actor网
络, 生成每个用户自身的报价; 根据报价执行动
作, 计算出每个用户购买的感知时间; 获取每个
用户的交易信息以及奖励信息后添加到经验回
放池; 计算Online Critic网络的损失; 更新
Online Critic网络、 Online Actor网络、 Target
Critic网络和Target Actor网络的参数; 当训练
次数达到 预设值后停止训练, 最后进行指纹数据
库更新。 本发明的可扩展性高且开销小, 可广泛
应用于数据处 理技术领域。
权利要求书3页 说明书10页 附图1页
CN 114860741 A
2022.08.05
CN 114860741 A
1.一种基于众包的定位指纹库更新方法, 其特 征在于, 包括:
初始化经验回放池; 其中, 所述经验回放池用于保存用户与平台之间的交易经验信息;
为每个用户初始化On line Critic网络和On line Actor网络;
利用所述On line Actor网络为每 个用户生成自身的报价;
根据每个用户自身的报价, 由每个用户同时执行动作, 计算出每个用户购买的感知时
间;
获取每个用户的交易信息以及奖励信息;
将所述交易信息以及所述奖励信息添加到经验回放池;
计算所述On line Critic网络的损失;
利用梯度下降法更新所述Online Critic网络, 使用梯度上升法更新Online Actor网
络, 并更新Target Critic网络和Target Actor网络的参数;
当训练次数达 到预设值后停止训练, 得到训练结果;
根据所述训练结果进行指纹数据库更新。
2.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述每个
用户生成自身的报价的计算公式为:
其中,
代表每个用户i在当前时刻t生成 自身的报价;
代表Online Actor网
络以
为观测, 以
为参数的输出; μi代表Online Actor网络的输出;
代表每个用户i根
据自身在当前时刻t的观测信息;
代表Online Actor网络的参数; Nt代表添加的探索噪
声。
3.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述获取
每个用户的交易信息以及奖励信息, 包括:
获取所有用户在各个时刻之前的交易记录信息;
获取所有用户选择的动作信息;
获取所有用户获取的奖励信息;
获取所有用户在各个时刻之后的最 新交易记录信息 。
4.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述计算
所述Online Critic网络的损失这 一步骤中, 所述损失的计算公式为:
其中, Li代表用户i的critic损失; B代表每次训练采样的批量大小;
代表利用时序差
分法计算的目标Q值;
代表当前网络以ob, ab为输入, 以
为参数的Q值输出;
Qi代表critic网络的输出; ob代表样本b的观测; ab代表样本b中的动作;
代表online
critic网络的参数。
5.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述利用
梯度下降法更新所述Online Critic网络, 使用梯度上升法更新Online Actor网络, 并更新
Target Critic网络和Target Actor网络的参数, 包括:权 利 要 求 书 1/3 页
2
CN 114860741 A
2所述Online Critic网络的梯度的表达式为:
其中,
代表Q值对onlin e critic参数θQ的梯度; B代表每次训练采样的批 量大小; b代
表每次训练采样中的第b条样本;
代表利用时序差分法计算的目标Q值; Q(ob, ab|θQ)代表
当前网络以ob, ab为输入, 以
为参数的Q值输出; ob代表样本b的观测; ab代表样本b中的动
作; θQ代表online critic网络的参数;
所述Online Actor网络的梯度的表达式为:
其中,
代表Online Actor网络的损失J对Online Actor网络参数
的梯度; J代表
Online Actor网络的损失; ai代表Online Actor网络的输出;
代表
Online Critic网络基于观测
和参数θQ的输出对动作ai的梯度;
代表Online Critic网络基于观测
和参数θQ的输出;
代表
除用户i外的其他用户动作集合;
代表用户i的观测;
代表用户i的Online Actor网络
的参数;
所述Target Critic网络和Target Actor网络的参数的更新公式为:
其中,
代表用户i的T arget Critic网络的参数; τ代表软更新参数, 一般取0.01;
代表用户i的Online Critic网络的参数;
代表用户i的Target Critic网络的参数;
代表用户i的Target Actor网络的参数;
代表用户i的Onl ine Actor网络的参数;
代
表用户i的Target Actor网络的参数。
6.一种基于众包的定位指纹库更新装置, 其特 征在于, 包括:
第一模块, 用于初始化经验回放池; 其中, 所述经验回放池用于保存用户与平台之间的
交易经验信息;
第二模块, 用于为每 个用户初始化On line Critic网络和On line Actor网络;
第三模块, 用于利用所述On line Actor网络为每 个用户生成自身的报价;
第四模块, 用于根据每个用户自身的报价, 由每个用户同时执行动作, 计算出每个用户
购买的感知时间;
第五模块, 用于获取每 个用户的交易信息以及奖励信息;
第六模块, 用于将所述交易信息以及所述奖励信息添加到经验回放池;
第七模块, 用于计算所述On line Critic网络的损失;
第八模块, 用 于利用梯度下降法更新所述Online Critic网络, 使用梯度上升法更新
Online Actor网络, 并更新Target Critic网络和Target Actor网络的参数;
第九模块, 用于当训练次数达 到预设值后停止训练, 得到训练结果;权 利 要 求 书 2/3 页
3
CN 114860741 A
3
专利 一种基于众包的定位指纹库更新方法及装置
安全报告 >
其他 >
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-24 08:49:58上传分享