专利 一种基于众包的定位指纹库更新方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210402614.7 (22)申请日 2022.04.18 (71)申请人中国海洋石油集团有限公司地址 100020 北京市东城区朝阳门北大街 25号申请人中海石油（中国）有限公司海南分公司　中海油（广东）安全健康科技有限责任公司 (72)发明人张秀林　吕劲　梁海波　张林　武永锋　易涤非　王庆瑞　冯猛　范志锋　张湘跃　陈土顺　王斌　杨贵光　杨欣欣　宾志湘　林梓淇　彭卫芳　(74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师余凯欢 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/27(2019.01) (54)发明名称一种基于众包的定位指纹库更新方法及装置 (57)摘要本发明公开了一种基于众包的定位指纹库更新方法及装置，方法包括：初始化经验回放池；初始化Online Critic网络和Online Actor网络，生成每个用户自身的报价；根据报价执行动作，计算出每个用户购买的感知时间；获取每个用户的交易信息以及奖励信息后添加到经验回放池；计算Online Critic网络的损失；更新 Online Critic网络、 Online Actor网络、 Target Critic网络和Target Actor网络的参数；当训练次数达到预设值后停止训练，最后进行指纹数据库更新。本发明的可扩展性高且开销小，可广泛应用于数据处理技术领域。权利要求书3页说明书10页附图1页 CN 114860741 A 2022.08.05 CN 114860741 A 1.一种基于众包的定位指纹库更新方法，其特征在于，包括：初始化经验回放池；其中，所述经验回放池用于保存用户与平台之间的交易经验信息；为每个用户初始化On line Critic网络和On line Actor网络；利用所述On line Actor网络为每个用户生成自身的报价；根据每个用户自身的报价，由每个用户同时执行动作，计算出每个用户购买的感知时间；获取每个用户的交易信息以及奖励信息；将所述交易信息以及所述奖励信息添加到经验回放池；计算所述On line Critic网络的损失；利用梯度下降法更新所述Online Critic网络，使用梯度上升法更新Online Actor网络，并更新Target Critic网络和Target Actor网络的参数；当训练次数达到预设值后停止训练，得到训练结果；根据所述训练结果进行指纹数据库更新。 2.根据权利要求1所述的一种基于众包的定位指纹库更新方法，其特征在于，所述每个用户生成自身的报价的计算公式为：其中，代表每个用户i在当前时刻t生成自身的报价；代表Online Actor网络以为观测，以为参数的输出； μi代表Online Actor网络的输出；代表每个用户i根据自身在当前时刻t的观测信息；代表Online Actor网络的参数； Nt代表添加的探索噪声。 3.根据权利要求1所述的一种基于众包的定位指纹库更新方法，其特征在于，所述获取每个用户的交易信息以及奖励信息，包括：获取所有用户在各个时刻之前的交易记录信息；获取所有用户选择的动作信息；获取所有用户获取的奖励信息；获取所有用户在各个时刻之后的最新交易记录信息。 4.根据权利要求1所述的一种基于众包的定位指纹库更新方法，其特征在于，所述计算所述Online Critic网络的损失这一步骤中，所述损失的计算公式为：其中， Li代表用户i的critic损失； B代表每次训练采样的批量大小；代表利用时序差分法计算的目标Q值；代表当前网络以ob， ab为输入，以为参数的Q值输出； Qi代表critic网络的输出； ob代表样本b的观测； ab代表样本b中的动作；代表online critic网络的参数。 5.根据权利要求1所述的一种基于众包的定位指纹库更新方法，其特征在于，所述利用梯度下降法更新所述Online Critic网络，使用梯度上升法更新Online Actor网络，并更新 Target Critic网络和Target Actor网络的参数，包括：权　利　要　求　书 1/3 页 2 CN 114860741 A 2所述Online Critic网络的梯度的表达式为：其中，代表Q值对onlin e critic参数θQ的梯度； B代表每次训练采样的批量大小； b代表每次训练采样中的第b条样本；代表利用时序差分法计算的目标Q值； Q(ob， ab|θQ)代表当前网络以ob， ab为输入，以为参数的Q值输出； ob代表样本b的观测； ab代表样本b中的动作； θQ代表online critic网络的参数；所述Online Actor网络的梯度的表达式为：其中，代表Online Actor网络的损失J对Online Actor网络参数的梯度； J代表 Online Actor网络的损失； ai代表Online Actor网络的输出；代表 Online Critic网络基于观测和参数θQ的输出对动作ai的梯度；代表Online Critic网络基于观测和参数θQ的输出；代表除用户i外的其他用户动作集合；代表用户i的观测；代表用户i的Online Actor网络的参数；所述Target Critic网络和Target Actor网络的参数的更新公式为：其中，代表用户i的T arget Critic网络的参数； τ代表软更新参数，一般取0.01；代表用户i的Online Critic网络的参数；代表用户i的Target Critic网络的参数；代表用户i的Target Actor网络的参数；代表用户i的Onl ine Actor网络的参数；代表用户i的Target Actor网络的参数。 6.一种基于众包的定位指纹库更新装置，其特征在于，包括：第一模块，用于初始化经验回放池；其中，所述经验回放池用于保存用户与平台之间的交易经验信息；第二模块，用于为每个用户初始化On line Critic网络和On line Actor网络；第三模块，用于利用所述On line Actor网络为每个用户生成自身的报价；第四模块，用于根据每个用户自身的报价，由每个用户同时执行动作，计算出每个用户购买的感知时间；第五模块，用于获取每个用户的交易信息以及奖励信息；第六模块，用于将所述交易信息以及所述奖励信息添加到经验回放池；第七模块，用于计算所述On line Critic网络的损失；第八模块，用于利用梯度下降法更新所述Online Critic网络，使用梯度上升法更新 Online Actor网络，并更新Target Critic网络和Target Actor网络的参数；第九模块，用于当训练次数达到预设值后停止训练，得到训练结果；权　利　要　求　书 2/3 页 3 CN 114860741 A 3

专利 一种基于众包的定位指纹库更新方法及装置

专利一种基于众包的定位指纹库更新方法及装置