(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210629788.7
(22)申请日 2022.06.06
(71)申请人 大连理工大 学
地址 116024 辽宁省大连市甘井 子区凌工
路2 号
(72)发明人 姚琳 郑兆龙 吴国伟 张宇
(74)专利代理 机构 辽宁鸿文知识产权代理有限
公司 21102
专利代理师 许明章 王海波
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于生成对抗网络的敏感标签轨迹数
据差分隐私发布方法
(57)摘要
本发明属于信息安全技术领域, 提供了一种
基于生成对抗网络的敏感标签轨迹数据差分隐
私发布方法。 首先确定出泄露用户敏感属性的敏
感停止点, 并且删除用户轨迹中的异常点。 然后
将停止点和敏感属性映射为顶 点, 将时空点间的
迁移映射为边, 建立了有向加权图。 然后引入
WGAN‑GP模型来训练隐私预算ε添加噪声实现差
分隐私, 并采用动态隐私预算分配和自适应裁剪
阈值选择方法优化训练模型。 最后通过遍历加噪
后的图模型还原轨迹数据进行发布。 本发明设通
过图模型的设计同时对敏感标签和轨迹数据加
噪, 并且引入了GAN技术对隐私预算进行训练, 在
保证数据隐私性的前提下, 提高了数据的可用
性。
权利要求书3页 说明书6页 附图6页
CN 115033915 A
2022.09.09
CN 115033915 A
1.一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法, 其特征在于, 步骤
如下:
(1)轨迹数据T是按时间排序的一系列时空点, 其形式如下:
T=(l1, t1)→(l2, t2)→…→(ln, tn)
其中, n为轨迹长度, ti表示时间, li表示位置, 由经纬度确定, (li, ti)表示用户在ti时刻
出于li位置; 其中li是一个二维空间信息, 表示 为(xi, yi), 其中xi表示经度, yi表示纬度;
标签轨迹数据R是由轨 迹数据以及一个敏感属性标签的SA组成:
R=<(l1, t1)→(l2, t2)→…→(ln, tn), SA>
首先在原始轨迹数据集D中确定出可能泄露用户敏感属性的敏感停止点, 并且删除用
户轨迹中的异常点, 获得处 理后的轨 迹数据集D ′;
轨迹点的分类与保护, 具体过程如下:
(1.1)当接收到用户的轨迹数据后, 对序列上的轨迹点进行分类, 主要分成停止点和异
常点两类;
停止点主 要考虑长停留点和徘徊点两种:
长停留点: 指用户长时间停留在某一位置的情况, 定义时间阈值θt, 若用户在某一位置
停留的时间长于θt, 那么在该时间间隔内相应轨迹序列 中的所有移动点均视为长停留点;
对于原始轨迹数据集D中任一条轨迹数据T, 如果li=lj=lk, 且|tk‑ti|>θt(i<j<k), 则轨
迹点(li, ti), (lk, tk), (lj, tj)被视为长停留点;
徘徊点: 指用户在某一区域长时间徘徊的情况, 定义距离阈值θd; 如果用户在某个区域
中徘徊, 并且区域中任意两点间的欧式距离小于距离阈值θd, 并且停留时间长于时间阈值
θt, 那么在该区域中的所有时空点都被视为徘徊点; 对于原始轨迹数据集D中任一条轨迹数
据T, 若
且|tk‑ti|>θt(i<j<k), 则轨迹点(li, ti),
(lj, tj), (lk, tk)被视为徘徊点;
异常点被称为噪声点, 指的是偏离正常用户轨迹的特殊轨迹点, 设置距离阈值θd, 如果
某个时空点与前面时空点间的欧式距离大于距离阈值θd, 则将该点视为异常点; 对于轨迹
数据集D中任一条轨 迹数据T, 若
且j‑i=1, 那么轨 迹点(lj, tj)被视为异常点;
(1.2)将轨迹序列中的轨迹点分类后, 对不同类型的轨迹点进行隐私保护; 针对长停留
点的隐私保护, 利用所有长停留点的位置以及时间中心形成一个新的时空点来代替所有的
长停留点; 针对徘徊点的隐私保护, 利用徘徊区域的轨迹中心 点以及徘徊点的时间中心, 形
成新的时空点 来代替所有的徘徊点; 针对异常点, 将其从轨 迹数据中删除;
(2)采用图模型映射算法, 将停止点和敏感属性映射为顶点, 将时空点间的迁移映射为
边, 建立有向加权图G, 并对有向加权图中顶点添加拉普拉斯噪声;
图模型映射 算法的具体过程如下:
(2.1)生成有向加权图, 图顶点V包含头顶点和轨迹顶点两种; 首先将步骤(1)处理后的
轨迹数据集D ′中的每种不同的SA值映射到有向加权图G的头顶点中, 头顶点也作为图中每
条边的起始 点, 头顶点的权重值为具有 该SA值的轨迹的个数; 然后, 将寻找到的停止点映射
到轨迹顶点中, 轨迹顶点的权重值为该时空点在所有轨迹中出现的次数; 有向加权图G中两
个顶点vi和vj间的边表示原始轨迹数据集D中存在顶点vi到vj间的迁移, 边的权重表示这种权 利 要 求 书 1/3 页
2
CN 115033915 A
2迁移出现的次数; 头顶点与有向加权图G中第二个节点之 间的边的权值为原始轨迹数据集D
中以第一个轨 迹点为开始点且敏感属性 为头结点的轨 迹数目;
(2.2)有向加权图G生成之后, 对有向加权图G中每个节点v通过相邻顶点投票的方式确
定隐私预算 ε, 具体方法如下:
其中, Nvi表示从步骤(2.1)中获取的顶点vi的权重, εvi是顶点vi的隐私预算, wvi表示vi
和v之间的边权重; 顶点vi通过自己的顶 点权重Nvi和vi转换到邻居v的用户数量wvi进行权重
设置来给邻居v投票, 投票给邻居v的隐私预算为自身预算的
因此从邻居v到顶点vi的投
票结果是
然后, 通过拉普拉斯机制为每个顶点添加噪声; 采用的查询函数f=num(vi, D)返回值为
每个顶点的权重值, 针对该返回值的隐私保护, 考虑两个只相差一条数据的相邻数据集D1
和D2的敏感度为:
当两个数据集只相差一条数据时, 在一个时间戳上能影响的顶点数为1; 所以, 拉普拉
斯 噪 声 L a p (1 /εv i) 被 添 加 到 顶 点 vi的 权 重 Nv i,加 噪 后 的 顶 点 权 重 为
(3)在利用图模型映射算法对一条轨迹数据上的各节点设计好隐私预算分配后, 利用
GAN来训练隐私预算; 使用WGAN ‑GP模型将获得的有向加 权图作为真实样本, 通过计算生成
样本和真实样本间的Wasserstein距离来判断生成样本的可用性高低, 通过训练过程为有
向加权图G中的每个节点添加 合适的隐私预算, 同时采用针对梯度阈值的自适应阈值裁剪
的方法, 达 到加快模型收敛, 提高生成数据可用性的目的; WGAN ‑GP的具体过程如下:
(3.1)初始化生成器和判别器, 生成器的初始输入为噪声, 输出为隐私预算, 判别器的
真实样本为上一步骤中停止点映射后的有向加权图G; 在判别器的每次更新中, 先对步骤
(1)处理后的轨迹数据集D ’集中抽样, 计算梯度并且进 行梯度裁剪, 选用一种动态取值方法
计算梯度裁剪的阈值: 每次迭代过程中取加噪后的梯度平均值作为裁剪阈值, 即
其中L为样本总数, | |g(xi)||2为样本xi的梯度范 数;
(3.2)结合标签轨迹的特点以及图模型映射算法生成器生成头结点的隐私预算, 通过
步骤(2.2)中的噪音添加方法, 生成拉普拉斯噪声添加到有向加权图G中生成噪声图G ’;
结合图模型映射算法, 对于头结点的隐私预算分配问题, 采用一种递增的动态隐私预
算分配策略: 随着模 型的逐渐收敛, 逐渐增加分配给每次迭代的 隐私预算, 从而增加数据的
可用性, 让算法模型更快的收敛; 动态隐私预算分配以一个训练 时期为单位周期性地更新,
并保证在一个训练时期内所有迭代中总的隐私预算仍然保持不变; 采用指数型预算分配方
法:
εt= ε0ekt权 利 要 求 书 2/3 页
3
CN 115033915 A
3
专利 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法
安全报告 >
其他 >
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:50上传分享