专利 一种基于本地差分隐私的效用优化集合数据保护方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210618868.2 (22)申请日 2022.06.01 (71)申请人南京航空航天大学地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人朱友文　曹依然　 (74)专利代理机构南京合砺专利商标代理事务所(普通合伙) 32518 专利代理师许云花 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) G06F 21/64(2013.01) (54)发明名称一种基于本地差分隐私的效用优化集合数据保护方法 (57)摘要本发明公开了一种基于本地差分隐私的效用优化集合数据保护方法，属于信息安全领域。该方法包括服务器将原始数据域划分为敏感数据域和非敏感数据域，并将划分结果，隐私预算和数据条数公开；用户对自己的集合数据进行采样或填充，然后根据数据所属类别，在本地对其进行扰动，并将结果发送给服务器。服务器收集用户的扰动后数据，分析计算出原始数据的频率估计结果。本发明可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方服务器的隐私攻击；本发明可以在保证敏感数据保护力度不降低的前提下，提高整体数据效用，进而提高服务器统计结果的准确度。权利要求书2页说明书8页附图2页 CN 115130119 A 2022.09.30 CN 115130119 A 1.一种基于本地差分隐私的效用优化集合数据保护方法，其特征在于：包括以下步骤： S1、服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN，且确定用户数据指定条数m，虚假数据域XT和所使用的隐私预算 ε，并把XS， XN， XT， m和 ε 公开给用户； S2、用户对自己的数据进行预处理，若数据条数大于m，则从中随机抽取m条，若数据条数小于m，则使用虚假数据补齐到m条，虚假数据由用户自己从XT选择，虚假数据也属于非敏感数据； s′表示用户预处理后的数据，即 s′＝{x1,x2,…,xm}， X′表示全体数据域，即X ′＝X∩XT； S3、用户根据s ′中数据所属类别进行扰动，并把扰动后的数据和扰动中使用的哈希函数发送给服务器； S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析，估算出原始数据的频率分布结果。 2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：在步骤(S3)中，用户端原始数据的扰动包括如下过程： S31、由用户自己选择哈希函数h:X →[0.0,1.0)，即哈希函数h的输入域为全体数据域 X′，输出域为[0.0,1.0)，然后对s ′中每一条数据进行哈希，得到哈希后的数据 v＝{h(x1),h (x2),…,h(xm)}＝{v1,v2,…,vm}； S32、计算覆盖长度正则化因子Ω＝ mpeε+1‑mp，覆盖区域Cv＝{t|t∈[vi, vi+p)或[0,vi+p‑1),i∈[1,m]}和覆盖区域的总长度 l，然后按照如下公式所示概率密度得到y0： S33、令针对s′中每一条数据xi，若xi∈s′N，且则将xi加入集合y1中； S34、将h， y0和y1发送给服务器。 3.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：在步骤(S4)中，服务器估算频率分布结果包括如下步骤： S41、服务器收集到全部n个参与者发送的扰动结果，将结果分为两组，第一组是所有用户发来的y0和h，第二组是所有用户发来的y1； S42、计算覆盖长度正则化因子Ω＝mpeε+1‑mp，正确覆盖概率错误覆盖概率Pf＝p； S43：针对XS中每条数据x，令Fx＝0，遍历所有用户发来的y0和h，若y0‑p＜h(x)≤y0或y0‑ p+1＜h(x)＜1，则Fx＝Fx+1；其中，原始数据中x的估计频率计算方式如下：权　利　要　求　书 1/2 页 2 CN 115130119 A 2S44、针对XN中每条数据x，令Fx＝0，遍历所有用户发来的y1，若x∈y1，则Fx＝Fx+1；其中，原始数据中x的估计频率计算方式如下： 4.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：该方法中，用户数据指定条数m由服务器直接确定或者按照一定比例确定，用户在本地对自身数据条数进行扰动，并将扰动后的结果发送给服务器，服务器再聚合计算得到用户数据条数估计值。 5.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：对于虚假数据域XT，其确定计算过程包括如下过程： a)若原始数据域连续，则首先找出原始数据域X的边界值Xu和Xd， Xu表示上边界， Xd表示下边界，然后根据上边界和下边界进行扩展，构造虚假数据集XT，若m为偶数，则若m为奇数，则若有数据范围限定导致无法向其中一端继续扩展，则向另一端继续扩展直至选够m条虚假数据； b)若原始数据域非连续，则首先找出原始数据域X的边缘数据域XE，即若x属于XE，则必有数据x′与x相邻且然后通过向XE中的数据添加拉普拉斯噪声，挑选出m条不在X中的虚假数据构成XT。权　利　要　求　书 2/2 页 3 CN 115130119 A 3

专利 一种基于本地差分隐私的效用优化集合数据保护方法

专利一种基于本地差分隐私的效用优化集合数据保护方法