(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210618868.2 (22)申请日 2022.06.01 (71)申请人 南京航空航天大 学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 朱友文 曹依然  (74)专利代理 机构 南京合砺 专利商标代理事务 所(普通合伙) 32518 专利代理师 许云花 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) G06F 21/64(2013.01) (54)发明名称 一种基于本地差分隐私的效用优化集合数 据保护方法 (57)摘要 本发明公开了一种基于本地差分隐私的效 用优化集合数据保护方法, 属于信息安全领域。 该方法包括服务器将原始数据域划分为敏感数 据域和非敏感数据域, 并将划分结果, 隐私预算 和数据条数公开; 用户对自己的集合数据进行采 样或填充, 然后根据数据所属类别, 在本地对其 进行扰动, 并将结果发送给服务器。 服务器收集 用户的扰动后数据, 分析计算出原始数据的频率 估计结果。 本发 明可以抵抗具有任意背景知 识的 攻击者和防止来自不可信第三方服务器的隐私 攻击; 本发 明可以在保证敏感数据保护力度不降 低的前提下, 提高整体数据效用, 进而提高服务 器统计结果的准确度。 权利要求书2页 说明书8页 附图2页 CN 115130119 A 2022.09.30 CN 115130119 A 1.一种基于 本地差分隐私的效用优化 集合数据保护方法, 其特 征在于: 包括以下步骤: S1、 服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN, 且确定用户数据指 定条数m, 虚假数据域XT和所使用的隐私预算 ε, 并把XS, XN, XT, m和 ε 公开给用户; S2、 用户对自己的数据进行预处理, 若数据条数大于m, 则从中随机抽取m条, 若数据条 数小于m, 则使用虚假数据补齐到m条, 虚假数据由用户自己从XT选择, 虚假数据也属于非敏 感数据; s′表示用户预处 理后的数据, 即 s′={x1,x2,…,xm}, X′表示全体数据域, 即X ′=X∩XT; S3、 用户根据s ′中数据所属类别进行扰动, 并把扰动后的数据和扰动中使用的哈希函 数发送给服 务器; S4、 服务器根据用户发送 的扰动后数据和扰动中使用的哈希函数进行统计分析, 估算 出原始数据的频率分布结果。 2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在 于: 在步骤(S3)中, 用户端原 始数据的扰动包括如下 过程: S31、 由用户自己选择哈希函数h:X →[0.0,1.0), 即哈希函数h的输入域为全体数据域 X′, 输出域为[0.0,1.0), 然后对s ′中每一条数据 进行哈希, 得到哈希后的数据 v={h(x1),h (x2),…,h(xm)}={v1,v2,…,vm}; S32、 计算覆 盖长度 正则化因子Ω= mpeε+1‑mp, 覆盖区域Cv={t|t∈[vi, vi+p)或[0,vi+p‑1),i∈[1,m]}和覆盖区域的总长度 l, 然后按照如下公式所示概率密度得 到y0: S33、 令 针对s′中每一条数据xi, 若xi∈s′N, 且 则将xi加入集合y1中; S34、 将h, y0和y1发送给服 务器。 3.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在 于: 在步骤(S4)中, 服 务器估算频率分布结果包括如下步骤: S41、 服务器收集到全部n个参与者发送的扰动结果, 将结果分为两组, 第一组是所有用 户发来的y0和h, 第二组是 所有用户发来的y1; S42、 计算覆盖长度 正则化因子Ω=mpeε+1‑mp, 正确覆盖概率 错误覆盖概 率Pf=p; S43: 针对XS中每条数据x, 令Fx=0, 遍历所有用户发来的y0和h, 若y0‑p<h(x)≤y0或y0‑ p+1<h(x)<1, 则Fx=Fx+1; 其中, 原始数据中x的估计频率 计算方式如下:权 利 要 求 书 1/2 页 2 CN 115130119 A 2S44、 针对XN中每条数据x, 令Fx=0, 遍历所有用户发来的y1, 若x∈y1, 则Fx=Fx+1; 其中, 原始数据中x的估计频率 计算方式如下: 4.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在 于: 该方法中, 用户数据指定条数m由服务器直接确定或者按照一定比例确定, 用户在本地 对自身数据条数进行扰动, 并将扰动后的结果发送给服务器, 服务器再聚合计算得到用户 数据条数估计值。 5.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法, 其特征在 于: 对于虚假数据域XT, 其确定计算过程包括如下 过程: a)若原始数据域连续, 则首先找出原始数据域X的边界值Xu和Xd, Xu表示上边界, Xd表示 下边界, 然后根据上边界和下边界进行扩展, 构造虚假数据集XT, 若m为偶数, 则 若m为奇数, 则 若有数据范围限定 导致无法向其中一端继续扩展, 则向另一端继续扩展直至 选够m条虚假数据; b)若原始数据域非连续, 则首先找出原始数据域X的边缘数据域XE, 即若x属于XE, 则必 有数据x′与x相邻且 然后通过向XE中的数据添加拉普拉斯噪声, 挑选出m条不在X中 的虚假数据构成XT。权 利 要 求 书 2/2 页 3 CN 115130119 A 3

.PDF文档 专利 一种基于本地差分隐私的效用优化集合数据保护方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于本地差分隐私的效用优化集合数据保护方法 第 1 页 专利 一种基于本地差分隐私的效用优化集合数据保护方法 第 2 页 专利 一种基于本地差分隐私的效用优化集合数据保护方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:38:53上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。