(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210634395.5
(22)申请日 2022.06.07
(65)同一申请的已公布的文献号
申请公布号 CN 114722427 A
(43)申请公布日 2022.07.08
(73)专利权人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 杨昱睿 蒋杰 刘煜宏 陈鹏
陶阳宇 范晓亮 程勇
(74)专利代理 机构 北京三高永信知识产权代理
有限责任公司 1 1138
专利代理师 祝亚男
(51)Int.Cl.
G06F 21/62(2013.01)G06N 20/20(2019.01)
(56)对比文件
CN 112231308 A,2021.01.15
审查员 周燕
(54)发明名称
联邦学习中的隐私去重方法、 装置、 设备及
存储介质
(57)摘要
本申请公开了一种联邦学习中的隐私去重
方法、 装置、 设备及存储介质, 涉及机器学习领
域。 该方法包括: 获取第一数据集; 将第一数据的
第一数据标识发送至协助方设备, 协助方设备存
储的第二数据对应有索引关系; 接收协助方设备
发送的索引结果, 索引结果是协助方设备在索引
关系中基于第二数据标识对第一数据标识进行
查询得到的结果, 用于表示第一数据标识在索引
关系中的排列次序; 对索引结果进行聚合分析,
得到第二数据集的数据去重统计结果。 通过以上
方式, 能够在避免信息泄露的前提下, 使得发起
方设备无需获取协助方设备的对象数据, 根据索
引结果确定第二数据的部分数据信息。 本申请可
应用于云技 术、 人工智能、 智慧 交通等各种场景。
权利要求书4页 说明书38页 附图9页
CN 114722427 B
2022.09.09
CN 114722427 B
1.一种联邦学习中的隐私去重方法, 其特 征在于, 所述方法包括:
获取第一数据集, 所述第一数据集中的第一数据对应有第一数据标识, 所述第一数据
标识用于唯一指示所述第一数据;
将所述第一数据的第 一数据标识发送至协助方设备, 所述协助方设备存储有第 二数据
集, 所述第二数据集中包括第二数据, 且存在至少一个第二数据的第二数据标识与所述第
一数据标识匹配, 所述第二数据对应有索引关系, 所述索引关系 是对所述第二数据排列得
到的顺序关系;
接收所述协助方设备发送的索引结果, 所述索引结果是所述协助方设备在所述索引关
系中基于所述第二数据标识对所述第一数据标识进行查询得到的结果, 所述索引结果用于
表示所述第一数据标识在所述索引关系中的排列次序;
对所述索引结果进行聚合分析, 得到所述第二数据集的数据去重统计结果, 所述数据
去重统计结果是针对所述索引结果进行去重后统计得到的结果。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述索引结果进行聚合分析, 得到
所述第二数据集的数据去重统计结果, 包括:
创建所述第一数据集对应的基础位图;
基于所述索引结果对所述基础位图进行赋值更新, 得到数据位图, 其中, 针对所述索引
结果中的重复索引值, 对所述基础位图中与所述重复索引值对应的比特位进行 单次赋值;
对所述数据位图进行聚合分析, 得到所述第二数据集的数据去重统计结果。
3.根据权利要求2所述的方法, 其特征在于, 所述第 一数据集根据指定信 息字段分为多
个分组, 发送至所述协助方设备的第一数据标识是指定分组中第一数据的数据标识;
所述创建所述第一数据集对应的基础位图, 包括:
创建多个分组分别对应的基础位图, 其中包括所述指定分组对应的基础位图;
所述基于所述索引结果对所述基础位图进行 赋值更新, 得到数据位图, 包括:
基于所述索引结果对所述指定分组对应的基础位图进行赋值更新, 得到所述指定分组
对应的数据位图。
4.根据权利要求3所述的方法, 其特征在于, 所述创建多个分组分别对应的基础位图,
包括:
响应于所述指定分组中第 一数据的数量达到预设数量阈值, 对所述指定分组中的第 一
数据进行小组划分, 得到所述指定分组对应的多个数据小组;
创建所述多个数据小组分别对应的基础位图。
5.根据权利要求4所述的方法, 其特征在于, 所述基于所述索引结果对所述指定分组对
应的基础位图进行 赋值更新, 得到所述指定分组对应的数据位图之后, 还 包括:
在所述指定分组内, 对多个数据小组分别对应的数据位图进行按位或操作, 得到所述
指定分组对应的位图更新结果。
6.根据权利要求1至5任一所述的方法, 其特征在于, 所述将所述第一数据的第一数据
标识发送至协助方设备, 包括:
根据第一数据对应的指定信息 字段对所述第一数据集进行分组, 得到多个分组;
将指定分组中的第 一数据对应的第 一数据标识发送至所述协助方设备, 所述指定分组
是所述多个分组中的分组。权 利 要 求 书 1/4 页
2
CN 114722427 B
27.根据权利要求6所述的方法, 其特征在于, 所述将指定分组中的第 一数据对应的第 一
数据标识发送至所述协助方设备, 包括:
响应于所述指定分组中第 一数据的数量达到预设数量阈值, 对所述指定分组中的第 一
数据进行小组划分, 得到多个数据小组;
根据所述多个数据小组分批次向所述协助方设备发送所述第一数据对应的第一数据
标识。
8.根据权利要求1至5任一所述的方法, 其特征在于, 所述对所述索引结果进行聚合分
析, 得到所述第二数据集的数据去重统计结果, 包括:
通过预设聚合函数, 对所述索引结果进行聚合分析, 得到所述第二数据集的数据去重
统计结果。
9.根据权利要求8所述的方法, 其特征在于, 所述通过预设聚合函数, 对所述索引结果
进行聚合分析, 得到所述第二数据集的数据去重统计结果, 包括:
在所述预设聚合函数包括数量统计函数的情况下, 根据 所述索引结果中比特位为指定
取值的比特位数量, 确定数量结果;
将所述数量结果作为所述数据去重统计结果。
10.根据权利要求9所述的方法, 其特征在于, 所述通过预设聚合函数, 对所述索引结果
进行聚合分析, 得到所述第二数据集的数据去重统计结果, 还 包括:
确定通过所述索引结果分析得到的去重 中间结果, 所述去重 中间结果用于指示对所述
索引结果进行汇总分析后的结果;
在所述预设聚合函数包括求和函数、 求均值函数、 求最大值函数以及求最小值函数中
的至少一种情况 下, 将所述去重中间结果发送至所述协助方设备;
接收所述协助方设备对所述去重 中间结果的分析结果, 所述分析结果包括与 所述求和
函数对应的求和结果, 与所述求均值函数对应的均值结果, 与所述求最大值函数对应的最
大值结果以及与所述 求最小值函数对应的最小值结果中的至少一种;
基于所述分析 结果得到所述第二数据集的数据去重统计结果。
11.一种联邦学习中的隐私去重方法, 其特 征在于, 所述方法包括:
接收第一数据标识, 所述第一数据标识用于唯一指示第一数据, 所述第一数据是发起
方设备中第一数据集中的数据;
基于协助方设备存储的第二数据集中的第二数据, 确定所述第二数据对应的索引关
系, 所述第二数据集中包括第二数据, 且存在至少一个第二数据的第二数据标识与所述第
一数据标识匹配, 所述索引关系是对所述第二数据排列得到的顺序关系;
在所述索引关系中基于所述第 二数据标识对所述第 一数据标识进行查询, 得到索引结
果;
将所述索引结果发送至所述发起方设备, 所述发起方设备用于基于所述索引结果确定
所述第二数据集的数据去重统计结果。
12.根据权利要求11所述的方法, 其特征在于, 所述基于协助方设备存储的第 二数据集
中的第二数据, 确定所述第二数据对应的索引关系, 包括:
对所述协助方设备存储的所述第 二数据集中的第 二数据进行升序排列, 确定所述第 二
数据对应的排列顺序;权 利 要 求 书 2/4 页
3
CN 114722427 B
3
专利 联邦学习中的隐私去重方法、装置、设备及存储介质
安全报告 >
其他 >
文档预览
中文文档
52 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共52页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:50上传分享