全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210951172.1 (22)申请日 2022.08.09 (71)申请人 郑州信大 先进技术研究院 地址 450000 河南省郑州市高新 技术产业 开发区莲 花街55号 (72)发明人 张有为 姚文清 赵清波 薛兵  葛方丽 程骞  (74)专利代理 机构 郑州德勤知识产权代理有限 公司 41128 专利代理师 黄红梅 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 16/33(2019.01)G06F 40/242(2020.01) G06K 9/62(2022.01) G06Q 50/00(2012.01) (54)发明名称 一种案件大数据网络身份关联与人物画像 方法 (57)摘要 本发明提供一种案件大数据网络身份关联 与人物画像方法, 所述方法包括: 步骤1, 获取案 件数据; 步骤2, 对获取的数据进行清洗; 步骤3, 采用重叠 社团发现技术识别重要目标; 步骤4, 用 户博文向量化; 步骤5, 用户个人信息向量化; 步 骤6, 源用户和候选用户的博文相似度计算。 本发 明能够对涉案数据进行很好的处理; 本发明中采 用基于重叠社团发现的重要目标识别技术, 利用 局部聚类结构的引导来检测重叠社团, 将复杂的 重叠聚类问题降低为一个更简单、 更易于处理的 非重叠分区问题; 本发明利用向量表示、 行为关 联等方法, 构建基于多维特征的网络用户身份关 联模型, 挖掘跨社交平台用户关联关系和还原用 户社交关系网络 。 权利要求书3页 说明书7页 CN 115374371 A 2022.11.22 CN 115374371 A 1.一种案件大 数据网络身份关联与人物 画像方法, 其特 征在于, 所述方法包括: 步骤1, 获取案件数据; 步骤2, 对获取的数据进行清洗; 步骤3, 采用重 叠社团发现技 术识别重要目标; 步骤4, 用户博文向量 化; 步骤5, 用户个人信息向量 化; 步骤6, 源用户和候选用户的博文相似度计算。 2.根据权利要求1所述的案件大数据网络身份关联与人物画像方法, 其特征在于, 步骤 1中的案件数据包括: 用户ID, 用户昵称, IP地址, 上级和真实姓名。 3.根据权利要求2所述的案件大数据网络身份关联与人物画像方法, 其特征在于, 步骤 2中数据的清洗包括: 步骤2‑1, 若数据中存在空白的内容, 则将该条数据删除; 若数据中存在多个属性项完 全重复的记录, 则只保留一条记录并将其 余删除; 步骤2‑2, 进行中文字段匹配; 首先, 利用知识库对明显等价的特殊字段进行初步匹配; 然后, 利用中文自动分词技 术, 对经过初步匹配后的字符序列进行分词处 理, 形成含有分词标记的字符序列; 步骤2‑3, 进行基于编辑距离的相似度计算; 编辑距离(m+1) ×(n+1)阶矩阵Dij的计算公式如下: 式中, Dij=D(s1...si, t1...ti), 0≤i≤m, 0≤j≤n, Dij表示从{s1...si}, 到{t1...ti}的 编辑距离, s指代源字符串, t指代目标字符串; 步骤2‑4, 基于改进N ‑Gram算法的数据清洗; 使用动态大小的滑动窗口进行字段匹配, 设定窗口大小的初值N0, 后续窗口的大小随执 行过程计算得 出; 窗口大小计算方法: 记当前正在处理的窗口为N1, r1和rl分别表示窗口内的第一条和最 后一条记录, 则二 者之间的距离dt满足: 此时窗口N1内各记录之间的平均距离为dt(r1, rl)/N1; 下一步窗口的大小N2为: 为窗口最小阈值。 4.根据权利要求3所述的案件大数据网络身份关联与人物画像方法, 其特征在于, 步骤 3中采用重 叠社团发现技 术识别重要目标的方法: 定义要处理的图G=(V, E)由有限个结点V和节点之间的边 组成, 且满足: 对于 任意(u, v)∈E, u≠v; (u, v)∈E, 当且仅当(v, u)∈E, 最终检测到的聚类为S ’, 则由G产生S ’ 的具体步骤如下: 步骤3‑1: 对于图G中的每 个结点u, 使用局部聚类算法划分出 结点u的ego ‑net:权 利 要 求 书 1/3 页 2 CN 115374371 A 2其中, tu=np(Al, G[Nu]), np表示集合的数目; 步骤3‑2: 创建副本集 合V’; V中的每个结点u对应V ’中的tu个副本, 分别表示 为ui, i=1, 2,…, tu; 步骤3‑3: 增加副本之间的边; 如果(u, v)∈E, 且 那么在E’中增加一条边(ui, vj); 步骤3‑4: 在G′=(V′, E′)上利用全局聚类算法Ag进行聚类, 获取V ′的分区S″; 步骤3‑5: 对于V’的划分中的每个集合C ′∈S″, 关联一个由V的对应节点组成的簇 即 输出S′={C(C′)|C′∈S″}。 5.根据权利要求4所述的案件大数据网络身份关联与人物画像方法, 其特征在于, 步骤 4中用户博文向量 化表示如下: 博文进行分词处 理后, 博文呈现出一个大小为 n的词表, 表中的第i个 语义词表示 为: wordi=(sitei, vectori) 式中, sitei表示语义词在语义向量词典中的位置, vectori表示语义词对应的语义向 量; 由n个语义词组成的二元组构成博文的初始向量表示 为: Blog=(word1, word2, word3, ..., wordn) 选定源用户的一条博文Blog1与待比较的候选用户的一条博文Blog2, 采用平均池化方 法, 获得源用户的固定维度的博文向量V1, 公式如下: 式中, n1表示源用户博文中语义词的数量, α 表示每 个语义词的权 重; 采用带权重的平均池化计算方法, 获得与源用户博文向量相同维度的候选用户博文向 量v2: 式中, β 表示相同语义词的权 重的波动幅度, γi表示第i个 语义词的权 重。 6.根据权利要求5所述的案件大数据网络身份关联与人物画像方法, 其特征在于, 步骤 5中用户个人信息向量 化内容如下:权 利 要 求 书 2/3 页 3 CN 115374371 A 3

.PDF文档 专利 一种案件大数据网络身份关联与人物画像方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种案件大数据网络身份关联与人物画像方法 第 1 页 专利 一种案件大数据网络身份关联与人物画像方法 第 2 页 专利 一种案件大数据网络身份关联与人物画像方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:40:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。