全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210277708.6 (22)申请日 2022.03.21 (71)申请人 湖南科技学院 地址 425000 湖南省郴州市零陵区杨梓塘 路130号 (72)发明人 罗恩韬  (74)专利代理 机构 北京众合诚成知识产权代理 有限公司 1 1246 专利代理师 王萌 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/951(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/02(2006.01) G06K 9/62(2022.01) (54)发明名称 基于LSTM+CRF的用户隐私动态度量建模的 方法 (57)摘要 本发明公开的属于用户隐私动态度量技术 领域, 具体为基于LS TM+CRF的用户隐私动态度量 建模的方法, 包括以下操作步骤: 步骤一: 动态敏 感特征训练文本抽取, S1: 通过设计基于Scrapy 框架自动爬虫程序, S2: 从移动应用服务中爬取 用户输入的文本, 同时获取从可信第三方库中获 取关于隐私的文本标注信息进行对比, 本发明通 过利用Scrapy爬 虫获取网络中的用户信息, 同时 获取可信第三方关于隐私的人工标注信息, 然后 基于LSTM+CRF模型对获取的信息进行模型训练, 从而构建动态隐私度量模型, 并利用模型不断迭 代抽取用户的敏感特征, 为知识图谱建图提供数 据, 进而达到优化训练模型的精准度, 科学揭示 用户敏感特 征的动态变化趋势的效果。 权利要求书2页 说明书5页 附图1页 CN 114707062 A 2022.07.05 CN 114707062 A 1.基于LSTM+CRF的用户隐私动态度量建模的方法, 其特 征在于: 包括以下操作步骤: 步骤一: 动态敏感特 征训练文本抽取; S1: 通过设计 基于Scrapy框架自动爬虫程序; S2: 从移动应用服务中爬取用户输入的文本, 同时从可信第三方库中获取关于隐私的 文本标注信息进行对比; S3: 最后将第三方库没有的隐私文本信息存 入到CSV文件中; 步骤二: 优化后的LSTM+CRF模型训练; S1: 通过嵌入层, LSTM层, 条件随机场层对文本进行处 理; S2: 通过分词器算法对CSV中训练文本S进行分词, 并将获得词嵌入向量w[w1,w2,w3, w4,...,wn], 通过语义分割识别算法, 将数量庞大的训练文本按标点分割为训练语句, 将词 向量作为 LSTM层模型训练的输入, 分批 输入到LSTM层中, 从而提高LSTM的训练效率; S3: 经过训练, 可以预测得到多种不同的LSTM层状态分数矩阵E(wi,yi), 即敏感特征文 本, 每个词被标注不同词性的概 率矩阵; S4: 将LSTM层状态分数矩阵E(wi,yi)作为CRF输入的数据支持, 通过CRF层为训练语句标 注添加约束, 并通过不断迭代获得一条真实路径序列的最小损失函数; S5: 通过LSTM层和CRF层的不断优化迭代训练获得 敏感特征关系; S6: 对抽取到的用户敏感特 征进行再次融合; S7: 经过敏感特征去冗余后将精炼化的敏感特 征存入用户领域知识库; S8: 同时对每个敏感特征按照存入时间进行标注, 根据知识库中的用户敏感特征及其 时间, 可以预测用户在某时间段中敏感特 征的动态变化趋势; 步骤三: 知识图谱度量建图; S1: 将上一层用户敏感特征以及敏感特征关系以三元组的形式<敏感特征, 敏感特征, 敏感特征关系>按照逻辑关系作为输入, 以便 机器可以更容 易理解; S2: 根据用户对敏感隐私保护规则的约定, 对用户的敏感特征进行敏感度的度量, 并将 度量后的结果重新 提供给LSTM、 CRF层; S3: 在训练过程中, 不断补充度量后的数据和网络中新出现的知识逻辑, 从而进一步优 化训练模型的精准度, 科 学揭示用户敏感特 征的动态变化趋势。 2.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤一的S2中抽取的信息将以文本的形式存储到特征领域知识数据库中, 作为深度学 习模型的训练文本 。 3.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二的S1 中嵌入层为对文本进 行数据预处理, 使LSTM+CRF模 型能够利用这些文本进 行训练。 4.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二的S1中LSTM层为对处理好的数据进行训练, 获取每一个词对每一种标注的状 态, 即概率, 得到状态分数矩阵。 5.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二的S1中CRF层为对状态分数矩阵进行迭代训练, 通过损失函数从中找到损失最 小的一条 标注语句, 即标注正确的语句。权 利 要 求 书 1/2 页 2 CN 114707062 A 26.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二的S4中真实路径序列为在每一个M标注前面必定有一个B标注, 在E标注前面必 定有一个M或B标注等固定预测标注, 通过标注正确的路径, 即损失函数得出损失最小的路 径。 7.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二的S5中CRF层的关键步骤可以通过公式计算: 8.根据权利 要求7所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述PRealpath代表真实路径的分数, 所述Pi代表其他路径的分数, 所述LogLossFunction 代表损失函数, 所述Transiti onScore表示状态 ti到ti+1的概 率。 9.根据权利 要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在于, 所述步骤二S6中融合为通过相 似度算法, 将相似度在80%以上的敏感特征进行融合, 只用 其中一种敏感特 征, 删除冗余的敏感特 征。 10.根据权利要求1所述的基于LSTM+CRF的用户隐私动态度量建模的方法, 其特征在 于, 所述步骤三S1中三元组的形式为实体, 实体, 实体之间的关系。权 利 要 求 书 2/2 页 3 CN 114707062 A 3

.PDF文档 专利 基于LSTM+CRF的用户隐私动态度量建模的方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于LSTM+CRF的用户隐私动态度量建模的方法 第 1 页 专利 基于LSTM+CRF的用户隐私动态度量建模的方法 第 2 页 专利 基于LSTM+CRF的用户隐私动态度量建模的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。