(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210598157.3
(22)申请日 2022.05.30
(71)申请人 山西墨丘利科技有限公司
地址 030006 山西省太原市综改示范区太
原学府园区长治路249号
(72)发明人 周志刚 白增亮
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 16/2458(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 7/00(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于强化学习的隐私保护数据发布方
法
(57)摘要
本发明公开了一种基于强化学习的隐私保
护数据发布方法, 针对隐私保护操作与数据挖掘
操作的串行割裂导致数据效用降低的问题, 该方
法通过引入深度强化学习, 比较贝叶斯网络生成
的数据以及集成聚类的数据, 迭代 地修正贝叶斯
网络来达到隐私保护的强度以及数据挖掘的需
求。 本发明构造了隐私保护智能体和数据挖掘智
能体, 通过借助隐私保护和数据挖掘两个智能体
之间的博弈, 通过修正贝叶斯网络和考察数据的
共现性来分析数据的全局分布与局部分布对知
识挖掘的影响, 不断优化交互中的动作值函数,
使得隐私保护强度与数据 挖掘需求达 到平衡。
权利要求书5页 说明书13页 附图3页
CN 114880712 A
2022.08.09
CN 114880712 A
1.一种基于强化学习的隐私保护数据发布方法, 其特 征在于包括:
步骤一、 数据拥有者利用贝叶斯生成技术将其所拥有的原数据转化为贝叶斯网络, 然
后将生成的贝叶斯网络上传至数据中心(数据中心可以是云计算平台等可信且具有强大算
力的第三方平台), 由于数据中心是作为数据的存储和计算被引入系统平台, 数据中心本身
并不是数据的使用者, 因此, 仅将与原数据同分布的贝叶斯网络上传至数据中心, 割裂了数
据与其所含个体隐私信息之间的映射关系, 进而实现对原数据的第一重匿名化保护(这里
称之为对数据的内层匿名);
步骤二、 由数据中心构建隐私保护智能体, 通过迭代地修正贝叶斯网络来实现对原数
据的第二重匿名(这里称之为对数据的外层匿名), 修正贝叶斯网络的方式包含两种, 分别
从结构上和属性概率上修正: 第一, 通过添加、 删除、 翻转边可以改变贝叶斯网络结构, 从而
得到新的数据; 第二, 通过修改属 性节点的概率分布值也可以使贝叶斯网络生成的数据发
生改变, 从而达 到隐私保护要求;
步骤三、 由数据中心构建数据挖掘智能体, 利用3种独立的聚类算法(k ‑means、 均值漂
移、 DBSCAN)分别对 数据进行聚类操作, 通过分析簇内、 簇间的距离, 比较聚类结果与隐私保
护智能体修 正数据之间的差异, 来实现与隐私保护 智能体的交 互;
步骤四、 通过隐私保护和数据挖掘两个智能体之间的交互来获取奖励, 不断优化动作
值函数, 进而同时满足隐私保护和数据 挖掘的需求。
2.根据权利要求1所述的数据拥有者利用贝叶斯生成技术将其所拥有的原数据转化为
贝叶斯网络, 其特 征在于:
步骤一一, 对原数据D进行有放回采样, 采样比例为θ(0< θ< <1), 生成采样数据Dθ;
步骤一二, 数据拥有 者分别对采样数据Dθ和原数据D运用基于 K2算法的贝叶斯网络 结构
学习方法生成相应的贝叶斯网络, 并使用BIC(Bayesian Information Criterion)指标对
两个贝叶斯网络进行打 分(评估), 分别记为
和ScoreD;
步骤一三, 若
则增大采样比例θ, 令θ=min( θ+μ, 1), 并跳转
到步骤1.1, 其中, η( η>0)为预设的阈值, μ(0< μ< <1)为采样比例增量。
3.根据权利要求1所述的 由数据中心构建隐私保护 智能体, 其特 征在于:
步骤二一, 对贝叶斯网络通过添加、 删除、 翻转边的方式进行单位化修正操作, 其中, 单
位化只是每一轮次只能进行{添加, 删除, 翻转}操作集中的一项操作;
步骤二二, 使用代价函数
评估对贝叶斯网络进行修
正操作前后的信息损失;
将隐私保护智能体修正贝叶斯网络的过程以算法1表示, 命名为BNM算法, 算法的核心
过程描述如下:权 利 要 求 书 1/5 页
2
CN 114880712 A
24.根据权利要求1所述的通过修改属性节点的概率分布值也可以使贝叶斯网络生成的
数据发生改变, 从而达 到隐私保护要求, 其特 征在于:
步骤二一, 对贝叶斯网络实施敏感属性值泛化、 t ‑近邻性和
‑多样性三种隐私保护方
式进行单位化修正操作, 其中, 单位化只是每一轮次只能进 行{敏感属性值泛化, t ‑近邻性,
‑多样性}操作集中的一项操作;
敏感属性值泛化操作: 根据数据拥有者对数据属性设置的属性值泛化层次树, 将属性
值域中待匿名保护的属 性叶节点与其同父节点的所有兄弟叶节点聚合为一个属 性节点并
由其直接父节点进行替换, 形成新的叶节点, 该叶节点所对应的属 性值概率分布继承自参
与聚合的所有原叶节点, 其 值为所有参与聚合节点的概 率分布之和;
t‑近邻保护操作: a)将待匿名保护的属性值域空间中导致信息熵最大化的值分布情况
定义为理论基准(其分布值记 为Xmin), 属性值概率分布 最大者定义为待平滑基准(其分布 值
记为Xmax); b)使用方差进行度量, 将
定义为平滑操作单位(其中, m为正整数), 对
理论基准和待平 滑基准进行迭代式单位 修正, 即每一轮次修 正使得
若使得属性各值出现概率
与理论基准的方差不高于t则停止迭代, 否则跳转执 行a);
‑多样性保护操作: 将待隐私保护属性在贝叶斯网络中的值域空间进行扩充, 使得其
值域空间中不同值 的数量大于等于
基于修正后属性中各值 的概率分布根据信息熵最大
化的修正原则, 在每一轮修正的过程中, a)仅选择一个概率分布最大的值作为待修正的目
标对象(其分布值记为Xmax)且当前属性值域空间中不同值的数量记为
将其高
于均值的概 率分布值
平均分配给新增的属性 值
即
b)跳转执行a), 直到
(
为预设的概率分
布最小阈值, 且
)。
5.根据权利要求1所述的 由数据中心构建数据 挖掘智能体, 其特 征在于:
步骤三一, 通过引入相似性度量dist来计算记录之间、 记录与簇之间、 簇与簇之间的距权 利 要 求 书 2/5 页
3
CN 114880712 A
3
专利 一种基于强化学习的隐私保护数据发布方法
安全报告 >
其他 >
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:58上传分享