(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210799884.6
(22)申请日 2022.07.06
(71)申请人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 邱卫东 李昕 唐鹏 郭捷
王杨德
(74)专利代理 机构 上海交达专利事务所 31201
专利代理师 王毓理 王锡麟
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06F 40/258(2020.01)
G06F 40/205(2020.01)
(54)发明名称
面向GDPR的隐私政策合 规性检测方法
(57)摘要
一种面向GDPR的隐私 政策合规性检测方法,
将GDPR中对于隐私政策的要求抽象形成一个三
级结构的GDPR知 识图谱, 并通过该知 识图谱标注
收集到的层级结构的隐私 政策, 形成面向GDPR的
隐私政策语料库; 再通过面向GDPR的隐私 政策合
规性检测模 型, 能够对隐私 政策中的文本预测是
否属于GDPR中的某项条款。 本发明实现全面覆 盖
GDPR的隐私 政策的智能分析及合规性检测, 为在
线服务、 app等互联网服务提供面向GDPR的隐私
政策合规性建议和检测支撑 。
权利要求书2页 说明书4页 附图2页
CN 115292510 A
2022.11.04
CN 115292510 A
1.一种面向GD PR的隐私政策合 规性智能检测方法, 其特 征在于, 包括以下步骤:
步骤1)知识图谱构 建: 将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知
识图谱, 并通过该知识图谱标注收集到的层级结构的隐私政策, 形成面向GDPR的隐私政策
语料库;
步骤2)构建合规性检测分类器: 对GDPR知识图谱中的每一条要求, 使用语料库中的相
关数据构建数据集, 提取包含上下文信息的特征作为输入训练相应的分类器, 完成GDPR知
识图谱中每一条要求的检测分类器, 最终构成面向GDPR的隐私政策合规性检测模型, 能够
对隐私政策中的文本预测是否属于GD PR中的某项条款。
2.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法, 其特征是, 所述的知
识图谱由一个包含三级节点的图构成, 包括18个一级节点、 39个二级节点以及38个三级节
点, 每一个节点都对应GDPR中的一个要求条款, 该知识图谱总结GDPR对于隐私政策的一般
要求; 步骤1)中的语料库包括150个从在线服务网站中 收集到的 隐私政策, 该语料库中的隐
私政策具有层级结构, 即包 含多级标题和段落文本信息 。
3.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法, 其特征是, 所述的分
类器为随机森 林(Random Forest)模 型, 包括标题分类器和段落分类器, 分别对隐私政 策的
标题和散文 段落进行合规性检测, 分类器的输入为标题及段落的相关特征, 标题特征包括:
标题的父节点标签矩阵、 标题的兄弟 节点标签矩阵 以及标题的句向量, 段落特征包括: 段落
的父节点标签矩阵、 段落的兄弟节点标签矩阵、 段落的句向量以及段落的关键词标签矩阵。
4.根据权利要求1~3中任一所述面向GDPR的隐私政策合规性智能检测方法, 其特征
是, 所述的步骤1, 具体包括:
步骤1.1)知识图谱一级节点提取; GDPR共包含99章, 对数据管辖区域、 数据主体权利、
数据跨境传输等作出明确要求, 根据这些要求, 提取18个一级节点, 包括数据控制方、 数据
主体权利、 数据类别、 数据来源;
步骤1.2)知识图谱二级节点提取; 在上述一级节点下, 根据GDPR对部分一级节点的进
一步要求, 如数据主体权利中明确需要包含知情权、 遗忘权、 删除权等等, 提取这些要求并
抽象成二级节 点, 并链接到知识图谱中相应的一级节 点之后; 二级节点包括: DATA SUBJECT
RIGHT下的I NFORMATION、 AC CESS、 WITHDRAW CONSENT;
步骤1.3)知识图谱三级节点提取; 在上述二级节点下, 根据GDPR对部分二级节点的进
一步要求, 如数据控制方联系方式的电话号码、 数据控制方身份证明的注册号等, 提取这些
要求并抽象成三级节点, 并链接到知识图谱中对应的二级节点之后; 三级节点包括:
CONTROLER.IDENTITY下的REGISTER NUMBER;
步骤1.4)语料库构建; 上述步骤构建三级结构的知识图谱, 根据该知识图谱中的节点
标签, 对收集到的150个在线服务的 隐私政策进 行标注, 标注的内容包括隐私政 策中的标题
以及段落文本, 最终形成面向GD PR的隐私政策语料库。
5.根据权利要求1~3中任一所述面向GDPR的隐私政策合规性智能检测方法, 其特征
是, 所述的步骤2, 具体包括:
步骤2.1)标题分类器; 根据知识图谱中的每一个节点, 训练相应的标题二分类器, 分类
器的输入为标题相应的特 征, 输出为该 标题是否为知识图谱中该节点的要求;
步骤2.2)段落分类器; 根据知识图谱中的每一个节点, 训练相应的段落二分类器, 分类权 利 要 求 书 1/2 页
2
CN 115292510 A
2器的输入为段落相应的特 征, 输出为该 段落是否为知识图谱中该节点的要求;
所述的标题分类器中输入为标题相应的特征, 包括标题的父节点标签矩阵、 标题的兄
弟节点标签矩阵以及标题的句向量; 其中标题的父节点标签矩阵特征为隐私政策网页中当
前标题所在节点的父节点的标签, 标题的兄弟节 点标签矩阵为隐私政策网页中当前标题所
在节点的兄弟节点的标签, 通常当父节点涉及到某个GDPR条款的时候, 并且其兄弟节点也
涉及到该GDPR条款或者子条款, 那么当前这个节点大概率会是相应的GDPR条款, 例如当前
节点的父节点的标签是数据主体权利, 其 兄弟节点的标签是数据主体权利下面的删除权,
那么当前节点大概率也是属于数据主体权利的, 因此使用标题的父节点标签以及标题的兄
弟节点标签作为标题的两个特征, 而每个节点都可能存在多个标签, 因此父节点标签和兄
弟节点标签都以矩阵的形式作为输入; 其中句向量特征是采用词嵌入的方法将标题文本转
换为向量, 通过采用预训练的Glov e模型计算标题中每个单词的词嵌入, 通过对所有词嵌入
取平均值 来得到标题句子的嵌入表示, 作为标题的句向量特 征;
所述的段落分类器中输入为段落相应的特征, 包括段落的父节点标签矩阵、 段落的兄
弟节点标签矩阵、 段落的句向量以及段落的关键词标签矩阵; 其中段落的父节 点标签矩阵、
段落的兄弟节点标签矩阵以及段落的句向量特征与标题的特征计算方法一致, 段落的父节
点标签矩阵为隐私政策网页中当前段落所在节点的父节点的标签, 段落的兄弟节点标签矩
阵为隐私政策网页中当前段落所在节点的兄弟节点的标签, 句向量用预训练的Glove模型
计算段落中每个单词的词嵌入, 通过对所有词嵌入取平均值来得到段落句 子的嵌入表示,
作为段落的句向量特征; 相较于标题, 段落通常是一个长文本, 包含较多冗余信息, 因此为
减少段落中的冗余信息给分类器带来的影响, 在段落分类器的输入特征中添加段落的关键
词标签矩阵特征, 通过构建一个包含知识图谱里面所有节点的关键词列表, 用这个作为段
落文本关键词的搜索依据, 在段落文本中进 行搜索, 如果段落文本含有相应的关键词, 将段
落打上相应的标签, 最后形成一个段落的关键词标签矩阵。
6.根据权利要求5所述面向GDPR的隐私政策合规性智能检测方法, 其特征是, 所述的标
题分类器中采用随机森林算法构建分类器, 分类器的输入为标题的父节点标签矩阵、 标题
的兄弟节点标签矩阵 以及标题的句向量三个特征, 分类器的参数包括: 随机种子数为50, 树
深度为5, 针对知识图谱中的每一个节点, 构建一个标题分类器, 使用语料库中隐私政策中
标签为该节点的标题和随机选取标签为其它节点的标题构建该节点的数据集, 按照4:1划
分训练集和 测试集, 采用5折交叉验证方法进行分类 器的训练;
所述的段落分类器中采用随机森林算法构建分类器, 分类器的输入为段落的父节点标
签矩阵、 段落的兄弟 节点标签矩阵、 段落的句向量以及段落的关键词标签矩阵四个特征, 分
类器的参数包括: 随机种子数为50, 树深度为5; 针对知识图谱中的每一个节 点, 构建一个段
落分类器, 使用语料库中隐私政策中标签为该节 点的段落和随机选取标签为其它节点的段
落构建该节点的数据集, 按照4: 1划分训练集和测试集, 采用5折交叉验证方法进行分类器
的训练。权 利 要 求 书 2/2 页
3
CN 115292510 A
3
专利 面向GDPR的隐私政策合规性检测方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:38上传分享