专利基于LSTM+CRF的用户隐私动态度量建模的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210277708.6 (22)申请日 2022.03.21 (71)申请人湖南科技学院地址 425000 湖南省郴州市零陵区杨梓塘路130号 (72)发明人罗恩韬　 (74)专利代理机构北京众合诚成知识产权代理有限公司 1 1246 专利代理师王萌 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/951(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/02(2006.01) G06K 9/62(2022.01) (54)发明名称基于LSTM+CRF的用户隐私动态度量建模的方法 (57)摘要本发明公开的属于用户隐私动态度量技术领域，具体为基于LS TM+CRF的用户隐私动态度量建模的方法，包括以下操作步骤：步骤一：动态敏感特征训练文本抽取， S1：通过设计基于Scrapy 框架自动爬虫程序， S2：从移动应用服务中爬取用户输入的文本，同时获取从可信第三方库中获取关于隐私的文本标注信息进行对比，本发明通过利用Scrapy爬虫获取网络中的用户信息，同时获取可信第三方关于隐私的人工标注信息，然后基于LSTM+CRF模型对获取的信息进行模型训练，从而构建动态隐私度量模型，并利用模型不断迭代抽取用户的敏感特征，为知识图谱建图提供数据，进而达到优化训练模型的精准度，科学揭示用户敏感特征的动态变化趋势的效果。权利要求书2页说明书5页附图1页 CN 114707062 A 2022.07.05 CN 114707062 A 1.基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于：包括以下操作步骤：步骤一：动态敏感特征训练文本抽取； S1：通过设计基于Scrapy框架自动爬虫程序； S2：从移动应用服务中爬取用户输入的文本，同时从可信第三方库中获取关于隐私的文本标注信息进行对比； S3：最后将第三方库没有的隐私文本信息存入到CSV文件中；步骤二：优化后的LSTM+CRF模型训练； S1：通过嵌入层， LSTM层，条件随机场层对文本进行处理； S2：通过分词器算法对CSV中训练文本S进行分词，并将获得词嵌入向量w[w1,w2,w3, w4,...,wn]，通过语义分割识别算法，将数量庞大的训练文本按标点分割为训练语句，将词向量作为 LSTM层模型训练的输入，分批输入到LSTM层中，从而提高LSTM的训练效率； S3：经过训练，可以预测得到多种不同的LSTM层状态分数矩阵E(wi,yi)，即敏感特征文本，每个词被标注不同词性的概率矩阵； S4：将LSTM层状态分数矩阵E(wi,yi)作为CRF输入的数据支持，通过CRF层为训练语句标注添加约束，并通过不断迭代获得一条真实路径序列的最小损失函数； S5：通过LSTM层和CRF层的不断优化迭代训练获得敏感特征关系； S6：对抽取到的用户敏感特征进行再次融合； S7：经过敏感特征去冗余后将精炼化的敏感特征存入用户领域知识库； S8：同时对每个敏感特征按照存入时间进行标注，根据知识库中的用户敏感特征及其时间，可以预测用户在某时间段中敏感特征的动态变化趋势；步骤三：知识图谱度量建图； S1：将上一层用户敏感特征以及敏感特征关系以三元组的形式<敏感特征，敏感特征，敏感特征关系>按照逻辑关系作为输入，以便机器可以更容易理解； S2：根据用户对敏感隐私保护规则的约定，对用户的敏感特征进行敏感度的度量，并将度量后的结果重新提供给LSTM、 CRF层； S3：在训练过程中，不断补充度量后的数据和网络中新出现的知识逻辑，从而进一步优化训练模型的精准度，科学揭示用户敏感特征的动态变化趋势。 2.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤一的S2中抽取的信息将以文本的形式存储到特征领域知识数据库中，作为深度学习模型的训练文本。 3.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二的S1 中嵌入层为对文本进行数据预处理，使LSTM+CRF模型能够利用这些文本进行训练。 4.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二的S1中LSTM层为对处理好的数据进行训练，获取每一个词对每一种标注的状态，即概率，得到状态分数矩阵。 5.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二的S1中CRF层为对状态分数矩阵进行迭代训练，通过损失函数从中找到损失最小的一条标注语句，即标注正确的语句。权　利　要　求　书 1/2 页 2 CN 114707062 A 26.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二的S4中真实路径序列为在每一个M标注前面必定有一个B标注，在E标注前面必定有一个M或B标注等固定预测标注，通过标注正确的路径，即损失函数得出损失最小的路径。 7.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二的S5中CRF层的关键步骤可以通过公式计算： 8.根据权利要求7所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述PRealpath代表真实路径的分数，所述Pi代表其他路径的分数，所述LogLossFunction 代表损失函数，所述Transiti onScore表示状态 ti到ti+1的概率。 9.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤二S6中融合为通过相似度算法，将相似度在80％以上的敏感特征进行融合，只用其中一种敏感特征，删除冗余的敏感特征。 10.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法，其特征在于，所述步骤三S1中三元组的形式为实体，实体，实体之间的关系。权　利　要　求　书 2/2 页 3 CN 114707062 A 3

专利 基于LSTM+CRF的用户隐私动态度量建模的方法

专利基于LSTM+CRF的用户隐私动态度量建模的方法