(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210402614.7 (22)申请日 2022.04.18 (71)申请人 中国海洋石油集团有限公司 地址 100020 北京市东城区朝阳门北 大街 25号 申请人 中海石油 (中国) 有限公司海南分公 司  中海油 (广东) 安全健康科技有限责 任公司 (72)发明人 张秀林 吕劲 梁海波 张林  武永锋 易涤非 王庆瑞 冯猛  范志锋 张湘跃 陈土顺 王斌  杨贵光 杨欣欣 宾志湘 林梓淇  彭卫芳 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 余凯欢 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/27(2019.01) (54)发明名称 一种基于众包的定位指纹库更新方法及装 置 (57)摘要 本发明公开了一种基于众包的定位指纹库 更新方法及装置, 方法包括: 初始化经验回放池; 初始化Online  Critic网络和Online  Actor网 络, 生成每个用户自身的报价; 根据报价执行动 作, 计算出每个用户购买的感知时间; 获取每个 用户的交易信息以及奖励信息后添加到经验回 放池; 计算Online  Critic网络的损失; 更新 Online Critic网络、 Online  Actor网络、 Target   Critic网络和Target  Actor网络的参数; 当训练 次数达到 预设值后停止训练, 最后进行指纹数据 库更新。 本发明的可扩展性高且开销小, 可广泛 应用于数据处 理技术领域。 权利要求书3页 说明书10页 附图1页 CN 114860741 A 2022.08.05 CN 114860741 A 1.一种基于众包的定位指纹库更新方法, 其特 征在于, 包括: 初始化经验回放池; 其中, 所述经验回放池用于保存用户与平台之间的交易经验信息; 为每个用户初始化On line Critic网络和On line Actor网络; 利用所述On line Actor网络为每 个用户生成自身的报价; 根据每个用户自身的报价, 由每个用户同时执行动作, 计算出每个用户购买的感知时 间; 获取每个用户的交易信息以及奖励信息; 将所述交易信息以及所述奖励信息添加到经验回放池; 计算所述On line Critic网络的损失; 利用梯度下降法更新所述Online  Critic网络, 使用梯度上升法更新Online  Actor网 络, 并更新Target  Critic网络和Target  Actor网络的参数; 当训练次数达 到预设值后停止训练, 得到训练结果; 根据所述训练结果进行指纹数据库更新。 2.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述每个 用户生成自身的报价的计算公式为: 其中, 代表每个用户i在当前时刻t生成 自身的报价; 代表Online  Actor网 络以 为观测, 以 为参数的输出; μi代表Online  Actor网络的输出; 代表每个用户i根 据自身在当前时刻t的观测信息; 代表Online  Actor网络的参数; Nt代表添加的探索噪 声。 3.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述获取 每个用户的交易信息以及奖励信息, 包括: 获取所有用户在各个时刻之前的交易记录信息; 获取所有用户选择的动作信息; 获取所有用户获取的奖励信息; 获取所有用户在各个时刻之后的最 新交易记录信息 。 4.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述计算 所述Online Critic网络的损失这 一步骤中, 所述损失的计算公式为: 其中, Li代表用户i的critic损失; B代表每次训练采样的批量大小; 代表利用时序差 分法计算的目标Q值; 代表当前网络以ob, ab为输入, 以 为参数的Q值输出; Qi代表critic网络的输出; ob代表样本b的观测; ab代表样本b中的动作; 代表online   critic网络的参数。 5.根据权利要求1所述的一种基于众包的定位指纹库更新方法, 其特征在于, 所述利用 梯度下降法更新所述Online  Critic网络, 使用梯度上升法更新Online  Actor网络, 并更新 Target Critic网络和Target  Actor网络的参数, 包括:权 利 要 求 书 1/3 页 2 CN 114860741 A 2所述Online Critic网络的梯度的表达式为: 其中, 代表Q值对onlin e critic参数θQ的梯度; B代表每次训练采样的批 量大小; b代 表每次训练采样中的第b条样本; 代表利用时序差分法计算的目标Q值; Q(ob, ab|θQ)代表 当前网络以ob, ab为输入, 以 为参数的Q值输出; ob代表样本b的观测; ab代表样本b中的动 作; θQ代表online critic网络的参数; 所述Online Actor网络的梯度的表达式为: 其中, 代表Online  Actor网络的损失J对Online  Actor网络参数 的梯度; J代表 Online Actor网络的损失; ai代表Online  Actor网络的输出; 代表 Online  Critic网络基于观测 和参数θQ的输出对动作ai的梯度; 代表Online  Critic网络基于观测 和参数θQ的输出; 代表 除用户i外的其他用户动作集合; 代表用户i的观测; 代表用户i的Online  Actor网络 的参数; 所述Target  Critic网络和Target  Actor网络的参数的更新公式为: 其中, 代表用户i的T arget Critic网络的参数; τ代表软更新参数, 一般取0.01; 代表用户i的Online  Critic网络的参数; 代表用户i的Target  Critic网络的参数; 代表用户i的Target  Actor网络的参数; 代表用户i的Onl  ine Actor网络的参数; 代 表用户i的Target  Actor网络的参数。 6.一种基于众包的定位指纹库更新装置, 其特 征在于, 包括: 第一模块, 用于初始化经验回放池; 其中, 所述经验回放池用于保存用户与平台之间的 交易经验信息; 第二模块, 用于为每 个用户初始化On line Critic网络和On line Actor网络; 第三模块, 用于利用所述On line Actor网络为每 个用户生成自身的报价; 第四模块, 用于根据每个用户自身的报价, 由每个用户同时执行动作, 计算出每个用户 购买的感知时间; 第五模块, 用于获取每 个用户的交易信息以及奖励信息; 第六模块, 用于将所述交易信息以及所述奖励信息添加到经验回放池; 第七模块, 用于计算所述On line Critic网络的损失; 第八模块, 用 于利用梯度下降法更新所述Online  Critic网络, 使用梯度上升法更新 Online Actor网络, 并更新Target  Critic网络和Target  Actor网络的参数; 第九模块, 用于当训练次数达 到预设值后停止训练, 得到训练结果;权 利 要 求 书 2/3 页 3 CN 114860741 A 3

.PDF文档 专利 一种基于众包的定位指纹库更新方法及装置

安全报告 > 其他 > 文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于众包的定位指纹库更新方法及装置 第 1 页 专利 一种基于众包的定位指纹库更新方法及装置 第 2 页 专利 一种基于众包的定位指纹库更新方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-24 08:49:58上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。