专利 面向GDPR的隐私政策合规性检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210799884.6 (22)申请日 2022.07.06 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人邱卫东　李昕　唐鹏　郭捷　王杨德　 (74)专利代理机构上海交达专利事务所 31201 专利代理师王毓理　王锡麟 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/258(2020.01) G06F 40/205(2020.01) (54)发明名称面向GDPR的隐私政策合规性检测方法 (57)摘要一种面向GDPR的隐私政策合规性检测方法，将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知识图谱，并通过该知识图谱标注收集到的层级结构的隐私政策，形成面向GDPR的隐私政策语料库；再通过面向GDPR的隐私政策合规性检测模型，能够对隐私政策中的文本预测是否属于GDPR中的某项条款。本发明实现全面覆盖 GDPR的隐私政策的智能分析及合规性检测，为在线服务、 app等互联网服务提供面向GDPR的隐私政策合规性建议和检测支撑。权利要求书2页说明书4页附图2页 CN 115292510 A 2022.11.04 CN 115292510 A 1.一种面向GD PR的隐私政策合规性智能检测方法，其特征在于，包括以下步骤：步骤1)知识图谱构建：将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知识图谱，并通过该知识图谱标注收集到的层级结构的隐私政策，形成面向GDPR的隐私政策语料库；步骤2)构建合规性检测分类器：对GDPR知识图谱中的每一条要求，使用语料库中的相关数据构建数据集，提取包含上下文信息的特征作为输入训练相应的分类器，完成GDPR知识图谱中每一条要求的检测分类器，最终构成面向GDPR的隐私政策合规性检测模型，能够对隐私政策中的文本预测是否属于GD PR中的某项条款。 2.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的知识图谱由一个包含三级节点的图构成，包括18个一级节点、 39个二级节点以及38个三级节点，每一个节点都对应GDPR中的一个要求条款，该知识图谱总结GDPR对于隐私政策的一般要求；步骤1)中的语料库包括150个从在线服务网站中收集到的隐私政策，该语料库中的隐私政策具有层级结构，即包含多级标题和段落文本信息。 3.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的分类器为随机森林(Random Forest)模型，包括标题分类器和段落分类器，分别对隐私政策的标题和散文段落进行合规性检测，分类器的输入为标题及段落的相关特征，标题特征包括：标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量，段落特征包括：段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵。 4.根据权利要求1～3中任一所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的步骤1，具体包括：步骤1.1)知识图谱一级节点提取； GDPR共包含99章，对数据管辖区域、数据主体权利、数据跨境传输等作出明确要求，根据这些要求，提取18个一级节点，包括数据控制方、数据主体权利、数据类别、数据来源；步骤1.2)知识图谱二级节点提取；在上述一级节点下，根据GDPR对部分一级节点的进一步要求，如数据主体权利中明确需要包含知情权、遗忘权、删除权等等，提取这些要求并抽象成二级节点，并链接到知识图谱中相应的一级节点之后；二级节点包括： DATA SUBJECT RIGHT下的I NFORMATION、 AC CESS、 WITHDRAW CONSENT；步骤1.3)知识图谱三级节点提取；在上述二级节点下，根据GDPR对部分二级节点的进一步要求，如数据控制方联系方式的电话号码、数据控制方身份证明的注册号等，提取这些要求并抽象成三级节点，并链接到知识图谱中对应的二级节点之后；三级节点包括： CONTROLER.IDENTITY下的REGISTER NUMBER；步骤1.4)语料库构建；上述步骤构建三级结构的知识图谱，根据该知识图谱中的节点标签，对收集到的150个在线服务的隐私政策进行标注，标注的内容包括隐私政策中的标题以及段落文本，最终形成面向GD PR的隐私政策语料库。 5.根据权利要求1～3中任一所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的步骤2，具体包括：步骤2.1)标题分类器；根据知识图谱中的每一个节点，训练相应的标题二分类器，分类器的输入为标题相应的特征，输出为该标题是否为知识图谱中该节点的要求；步骤2.2)段落分类器；根据知识图谱中的每一个节点，训练相应的段落二分类器，分类权　利　要　求　书 1/2 页 2 CN 115292510 A 2器的输入为段落相应的特征，输出为该段落是否为知识图谱中该节点的要求；所述的标题分类器中输入为标题相应的特征，包括标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量；其中标题的父节点标签矩阵特征为隐私政策网页中当前标题所在节点的父节点的标签，标题的兄弟节点标签矩阵为隐私政策网页中当前标题所在节点的兄弟节点的标签，通常当父节点涉及到某个GDPR条款的时候，并且其兄弟节点也涉及到该GDPR条款或者子条款，那么当前这个节点大概率会是相应的GDPR条款，例如当前节点的父节点的标签是数据主体权利，其兄弟节点的标签是数据主体权利下面的删除权，那么当前节点大概率也是属于数据主体权利的，因此使用标题的父节点标签以及标题的兄弟节点标签作为标题的两个特征，而每个节点都可能存在多个标签，因此父节点标签和兄弟节点标签都以矩阵的形式作为输入；其中句向量特征是采用词嵌入的方法将标题文本转换为向量，通过采用预训练的Glov e模型计算标题中每个单词的词嵌入，通过对所有词嵌入取平均值来得到标题句子的嵌入表示，作为标题的句向量特征；所述的段落分类器中输入为段落相应的特征，包括段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵；其中段落的父节点标签矩阵、段落的兄弟节点标签矩阵以及段落的句向量特征与标题的特征计算方法一致，段落的父节点标签矩阵为隐私政策网页中当前段落所在节点的父节点的标签，段落的兄弟节点标签矩阵为隐私政策网页中当前段落所在节点的兄弟节点的标签，句向量用预训练的Glove模型计算段落中每个单词的词嵌入，通过对所有词嵌入取平均值来得到段落句子的嵌入表示，作为段落的句向量特征；相较于标题，段落通常是一个长文本，包含较多冗余信息，因此为减少段落中的冗余信息给分类器带来的影响，在段落分类器的输入特征中添加段落的关键词标签矩阵特征，通过构建一个包含知识图谱里面所有节点的关键词列表，用这个作为段落文本关键词的搜索依据，在段落文本中进行搜索，如果段落文本含有相应的关键词，将段落打上相应的标签，最后形成一个段落的关键词标签矩阵。 6.根据权利要求5所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的标题分类器中采用随机森林算法构建分类器，分类器的输入为标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量三个特征，分类器的参数包括：随机种子数为50，树深度为5，针对知识图谱中的每一个节点，构建一个标题分类器，使用语料库中隐私政策中标签为该节点的标题和随机选取标签为其它节点的标题构建该节点的数据集，按照4:1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练；所述的段落分类器中采用随机森林算法构建分类器，分类器的输入为段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵四个特征，分类器的参数包括：随机种子数为50，树深度为5；针对知识图谱中的每一个节点，构建一个段落分类器，使用语料库中隐私政策中标签为该节点的段落和随机选取标签为其它节点的段落构建该节点的数据集，按照4： 1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练。权　利　要　求　书 2/2 页 3 CN 115292510 A 3

专利 面向GDPR的隐私政策合规性检测方法

专利面向GDPR的隐私政策合规性检测方法