专利 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210629788.7 (22)申请日 2022.06.06 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路２号 (72)发明人姚琳　郑兆龙　吴国伟　张宇　 (74)专利代理机构辽宁鸿文知识产权代理有限公司 21102 专利代理师许明章　王海波 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 (57)摘要本发明属于信息安全技术领域，提供了一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法。首先确定出泄露用户敏感属性的敏感停止点，并且删除用户轨迹中的异常点。然后将停止点和敏感属性映射为顶点，将时空点间的迁移映射为边，建立了有向加权图。然后引入 WGAN‑GP模型来训练隐私预算ε添加噪声实现差分隐私，并采用动态隐私预算分配和自适应裁剪阈值选择方法优化训练模型。最后通过遍历加噪后的图模型还原轨迹数据进行发布。本发明设通过图模型的设计同时对敏感标签和轨迹数据加噪，并且引入了GAN技术对隐私预算进行训练，在保证数据隐私性的前提下，提高了数据的可用性。权利要求书3页说明书6页附图6页 CN 115033915 A 2022.09.09 CN 115033915 A 1.一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，其特征在于，步骤如下： (1)轨迹数据T是按时间排序的一系列时空点，其形式如下： T＝(l1， t1)→(l2， t2)→…→(ln， tn) 其中， n为轨迹长度， ti表示时间， li表示位置，由经纬度确定， (li， ti)表示用户在ti时刻出于li位置；其中li是一个二维空间信息，表示为(xi， yi)，其中xi表示经度， yi表示纬度；标签轨迹数据R是由轨迹数据以及一个敏感属性标签的SA组成： R＝＜(l1， t1)→(l2， t2)→…→(ln， tn)， SA＞首先在原始轨迹数据集D中确定出可能泄露用户敏感属性的敏感停止点，并且删除用户轨迹中的异常点，获得处理后的轨迹数据集D ′；轨迹点的分类与保护，具体过程如下： (1.1)当接收到用户的轨迹数据后，对序列上的轨迹点进行分类，主要分成停止点和异常点两类；停止点主要考虑长停留点和徘徊点两种：长停留点：指用户长时间停留在某一位置的情况，定义时间阈值θt，若用户在某一位置停留的时间长于θt，那么在该时间间隔内相应轨迹序列中的所有移动点均视为长停留点；对于原始轨迹数据集D中任一条轨迹数据T，如果li＝lj＝lk，且|tk‑ti|＞θt(i＜j＜k)，则轨迹点(li， ti)， (lk， tk)， (lj， tj)被视为长停留点；徘徊点：指用户在某一区域长时间徘徊的情况，定义距离阈值θd；如果用户在某个区域中徘徊，并且区域中任意两点间的欧式距离小于距离阈值θd，并且停留时间长于时间阈值 θt，那么在该区域中的所有时空点都被视为徘徊点；对于原始轨迹数据集D中任一条轨迹数据T，若且|tk‑ti|＞θt(i＜j＜k)，则轨迹点(li， ti)， (lj， tj)， (lk， tk)被视为徘徊点；异常点被称为噪声点，指的是偏离正常用户轨迹的特殊轨迹点，设置距离阈值θd，如果某个时空点与前面时空点间的欧式距离大于距离阈值θd，则将该点视为异常点；对于轨迹数据集D中任一条轨迹数据T，若且j‑i＝1，那么轨迹点(lj， tj)被视为异常点； (1.2)将轨迹序列中的轨迹点分类后，对不同类型的轨迹点进行隐私保护；针对长停留点的隐私保护，利用所有长停留点的位置以及时间中心形成一个新的时空点来代替所有的长停留点；针对徘徊点的隐私保护，利用徘徊区域的轨迹中心点以及徘徊点的时间中心，形成新的时空点来代替所有的徘徊点；针对异常点，将其从轨迹数据中删除； (2)采用图模型映射算法，将停止点和敏感属性映射为顶点，将时空点间的迁移映射为边，建立有向加权图G，并对有向加权图中顶点添加拉普拉斯噪声；图模型映射算法的具体过程如下： (2.1)生成有向加权图，图顶点V包含头顶点和轨迹顶点两种；首先将步骤(1)处理后的轨迹数据集D ′中的每种不同的SA值映射到有向加权图G的头顶点中，头顶点也作为图中每条边的起始点，头顶点的权重值为具有该SA值的轨迹的个数；然后，将寻找到的停止点映射到轨迹顶点中，轨迹顶点的权重值为该时空点在所有轨迹中出现的次数；有向加权图G中两个顶点vi和vj间的边表示原始轨迹数据集D中存在顶点vi到vj间的迁移，边的权重表示这种权　利　要　求　书 1/3 页 2 CN 115033915 A 2迁移出现的次数；头顶点与有向加权图G中第二个节点之间的边的权值为原始轨迹数据集D 中以第一个轨迹点为开始点且敏感属性为头结点的轨迹数目； (2.2)有向加权图G生成之后，对有向加权图G中每个节点v通过相邻顶点投票的方式确定隐私预算 ε，具体方法如下：其中， Nvi表示从步骤(2.1)中获取的顶点vi的权重， εvi是顶点vi的隐私预算， wvi表示vi 和v之间的边权重；顶点vi通过自己的顶点权重Nvi和vi转换到邻居v的用户数量wvi进行权重设置来给邻居v投票，投票给邻居v的隐私预算为自身预算的因此从邻居v到顶点vi的投票结果是然后，通过拉普拉斯机制为每个顶点添加噪声；采用的查询函数f＝num(vi， D)返回值为每个顶点的权重值，针对该返回值的隐私保护，考虑两个只相差一条数据的相邻数据集D1 和D2的敏感度为：当两个数据集只相差一条数据时，在一个时间戳上能影响的顶点数为1；所以，拉普拉斯噪声 L a p (1 /εv i) 被添加到顶点 vi的权重 Nv i，加噪后的顶点权重为 (3)在利用图模型映射算法对一条轨迹数据上的各节点设计好隐私预算分配后，利用 GAN来训练隐私预算；使用WGAN ‑GP模型将获得的有向加权图作为真实样本，通过计算生成样本和真实样本间的Wasserstein距离来判断生成样本的可用性高低，通过训练过程为有向加权图G中的每个节点添加合适的隐私预算，同时采用针对梯度阈值的自适应阈值裁剪的方法，达到加快模型收敛，提高生成数据可用性的目的； WGAN ‑GP的具体过程如下： (3.1)初始化生成器和判别器，生成器的初始输入为噪声，输出为隐私预算，判别器的真实样本为上一步骤中停止点映射后的有向加权图G；在判别器的每次更新中，先对步骤 (1)处理后的轨迹数据集D ’集中抽样，计算梯度并且进行梯度裁剪，选用一种动态取值方法计算梯度裁剪的阈值：每次迭代过程中取加噪后的梯度平均值作为裁剪阈值，即其中L为样本总数， | |g(xi)||2为样本xi的梯度范数； (3.2)结合标签轨迹的特点以及图模型映射算法生成器生成头结点的隐私预算，通过步骤(2.2)中的噪音添加方法，生成拉普拉斯噪声添加到有向加权图G中生成噪声图G ’；结合图模型映射算法，对于头结点的隐私预算分配问题，采用一种递增的动态隐私预算分配策略：随着模型的逐渐收敛，逐渐增加分配给每次迭代的隐私预算，从而增加数据的可用性，让算法模型更快的收敛；动态隐私预算分配以一个训练时期为单位周期性地更新，并保证在一个训练时期内所有迭代中总的隐私预算仍然保持不变；采用指数型预算分配方法： εt＝ ε0ekt权　利　要　求　书 2/3 页 3 CN 115033915 A 3

专利 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法

专利一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法