专利 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210539997.2 (22)申请日 2022.05.17 (71)申请人南京航空航天大学地址 211106 江苏省南京市江宁区将军大道29号 (72)发明人宫丽娜　李秋林　魏明强　 (74)专利代理机构青岛锦佳专利代理事务所 (普通合伙) 37283 专利代理师朱玉建 (51)Int.Cl. G06F 21/57(2013.01) G06F 21/62(2013.01) G06F 40/30(2020.01) (54)发明名称基于用户评语的移动应用隐私保护政策漏洞自动识别的方法 (57)摘要本发明公开了一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，其包括如下步骤：使用短文本主题建模和语义规则匹配方法，从用户评语中匹配移动应用存在危害用户个人信息的行为，获得移动应用不良行为集；使用显示语义分析方法提取隐私保护政策中与用户个人信息相关的语句，提取相应语句的信息内容，然后将语句中出现的信息内容组成信息内容集合；通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信息，确定移动应用对用户个人信息的使用情况，获取移动应用申请的使用权限中文名称集合。本发明方法能够基于上述步骤获得的结果自动识别移动应用隐私保护政策存在的漏洞。权利要求书3页说明书5页附图3页 CN 114925373 A 2022.08.19 CN 114925373 A 1.基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，包括如下步骤：步骤1.使用短文本主题建模和语义规则匹配方法，从用户评语中匹配移动应用存在危害用户个人信息的行为，获得移动应用不良行为集；步骤2.使用显示语义分析方法提取隐私保护政策中与用户个人信息相关的语句，并提取相应语句的信息内容，然后将语句中出现的信息内容组成信息内容集合；步骤3.通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信息，确定移动应用对用户个人信息的使用情况，获取移动应用申请的使用权限中文名称集合；步骤4.基于上述步骤1至3的结果，自动识别移动应用隐私保护政策漏洞；比对移动应用不良行为集与信息内容集合：如果移动应用存在不良行为危害用户个人信息但信息内容集合中却未出现不良行为信息或与不良行为表述不一致的情况，则认定隐私保护政策与移动应用实际行为存在不一致，隐私保护政策对移动应用行为描述存在缺漏；比对信息内容集合与使用权限中文名称集合：如果使用权限中文名称集合中存在权限没有出现在信息内容集合中或者使用权限中文名称集合中权限与信息内容集合中对权限描述的内容不一致，则认定隐私保护政策存在权限缺漏或者权限使用目的不一致。 2.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，所述步骤1具体为：步骤1 .1 .定义移动应用的不良行为集合UndesiredBehaviors，该集合 UndesiredBehavi ors中包含移动应用存在危害用户个人信息的不良行为，包括：索要和滥用非必要权限、包含攻击性广告、非法读取用户个人信息、滥用网络流量、隐藏第三方应用、非法重定向、非法更新、修改浏览器设置以及功能和描述不一致；步骤1.2.获取应用平台上移动应用的所有评论，选取和筛选用户评论，筛选获得9个语料库Corpus，每个语料库对应一种不良行为，包含多条涉及到不良行为的用户评论；步骤1.3.对于步骤1.2中的语料库Corpus，将每个语料库中的评论进行词汇分割，去除无意义的单词，并根据TF ‑IDF加权对剩余单词进行降序排序，获取W ordList；步骤1.4.根据步骤1.3获取的Wor dList中的每一个关键词，获取语料库Corpus中包含所述关键词的每个评论，并添加到评论集contentword中；步骤1.5.对于步骤1.3获取的W ordList中的每一个关键词，遍历进行比较；具体为：对于WordList中的关键词m及其对应的评论集contentword_m，以及WordList 中的关键词n及其对应的评论集contentword_n，进行如下比较：如果评论集contentword_m和评论集contentword_n存在交集，则将关键词m和关键词n 合并到一个关键词集中，否则将关键词m放到一个新的关键词集中；通过对WordList中的关键词汇遍历比较，获得所有的关键词集K eyWordSets；步骤1.6.对于关键词集KeyWordSets中的每一个关键词，成对地组合该关键词集中不同词性的关键词，定义格式为{keyw ord1,keyw ord2,constraints}；其中， {keyword1,keyword2,constraints}表示为关键词keyword1在关键词keyword2 的前面，且关键词keyw ord1与关键词keyw ord2之间的距离不超过co nstraints个单词；如果关键词集中的每一个关键词都是名词，那么对于每一个关键词，生成一条语义规权　利　要　求　书 1/3 页 2 CN 114925373 A 2则，样式如下： {keyword,null,null}，表示关键词keyword与其它关键词之间无距离条件约束；将以上形成的多条语义规则组成语义规则集RuleSets；步骤1.7.使用jieba工具对移动应用的评论进行分词处理，获取分词处理后的词汇集合words，使用步骤1.6中的语义规则集RuleSets对词汇集合words进行匹配；如果语义规则集RuleSets中存在语义规则set，其中关键词keyword1和关键词 keyword2都出现在词汇集合中，则检查关键词keyword1和关键词keyword2的前后顺序和距离，以确定它们是否满足语义规则的约束；如果满足，则认为匹配成功；步骤1.8.统计步骤1.7中匹配成功的不良行为，形成移动应用不良行为集SUBs。 3.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，所述步骤2具体为：步骤2.1.获取移动应用的隐私保护政策Privacy，对隐私保护政策Privacy预处理，去除非文本内容后，将隐私保护政策Privacy中的语句进行划分，构建初始的语句集合N1；步骤2.2.对初始的语句集合N1进行句法分析，根据THULAC词法分析工具包，获取语句集合N1中每条语句的语法依赖关系，构建语句集合N1的语法依赖关系集合N2；步骤2.3.预定义形式主谓宾的语料库，包含主语列表、宾语列表以及提供、收集、使用、保留和分享个人敏感信息的种子模式列表Pat tern；步骤2.4.对于语法依赖关系集合N2中的每一条语句，提取语句中的最短路径作为新模式，插入种子模式列表Patter n，并将语句中的主语和宾语插入对应的主语列表和宾语列表中；步骤2.5.将初始的语句集合N1分为两个句集，一种为正句集，为包含提供、收集、使用、保留和分享个人敏感信息的句子，另一种为负句集，为不包含相关的句子；对于种子模式列表Pat tern中的每一个模式p：定义pos(p)表示模式p能够匹配的正确的正句数量，定义neg(p)表示模式p能够匹配的否定句数，定义un k(p)表示任何模式都无法匹配的句子数量；那么由下面的公式，求得模式p的准确性ac c(p)和置信度co nf(p)；计算每个模式p最后的得分Scroe(p)： Score(p)＝co nf(p)*log(|pos(p)|)；根据每个模式的得分进行排序，得分高的模式排在种子模式列表Pat tern的前面；步骤2.6.定义有用句集UseSen；解析语法依赖关系集合N2中每个句子的类型依赖关系，遍历种子模式列表Pattern中的每一个模式，使用显示语义分析方法对句子进行匹配，检查其词根是否属于提供、收集、使用、保留和分享这五个动词类别；如果是，则将句子放入有用句集UseSen中；步骤2.7.对于步骤2.6有用句集UseSen中的每一条语句，使用Thulac工具提取该语句的信息内容，并将每一条语句中出现的信息内容放入信息内容集合Content中。 4.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，所述步骤3具体为：步骤3 .1 .使用工具androguard获取移动应用在使用的过程中权限请求集合权　利　要　求　书 2/3 页 3 CN 114925373 A 3

专利 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法

专利基于用户评语的移动应用隐私保护政策漏洞自动识别的方法