全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210902451.9 (22)申请日 2022.07.29 (71)申请人 国家国防科技工业局军工项目审核 中心 地址 100032 北京市西城区车公庄大街12 号 申请人 中国信息通信研究院 (72)发明人 严真旭 田林涛 张春宇 陆平  张峰 张斌 廖大中 赵亿锌  (74)专利代理 机构 北京恒泰铭睿知识产权代理 有限公司 1 1642 专利代理师 苏天功 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 5/04(2006.01) G06Q 10/10(2012.01) G06Q 50/26(2012.01) (54)发明名称 基于聚类的军工集团人员信息标签化方法 (57)摘要 本申请涉及信息处理及分析技术领域, 其具 体地公开了一种基于聚类的军工集团人员信息 标签化方法, 其使用深度神经网络模 型对各个成 员的静态信息与各个员工的行为数据进行特征 提取和关联编码以得到各个成员的静态 ‑行为关 联特征矩阵, 然后, 考虑到在通过计算空间距离 而进行聚类时, 可能由于空间距离对语义关系的 表达准确性而影 响聚类效果, 最终影 响类标签的 分配准确性, 因此对关联特征矩阵进行基于语义 推理信息显式泛化的修正以得到校正后静态 ‑行 为关联特征矩阵, 最后, 对所有成员的校正后静 态‑行为关联特征矩阵进行聚类分析以得到多个 聚类, 并为多个聚类中各个聚类指定类标签, 通 过这样的方式, 以提高军工集团人员信息标签化 的准确度。 权利要求书2页 说明书13页 附图3页 CN 114970775 A 2022.08.30 CN 114970775 A 1.一种基于聚类的军工集团人员 信息标签化方法, 其特征在于, 包括: 从军工集团的人 力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所 述所有成员的行为数据; 将所述所有成员的静态信息中各个成员的静态信息分别通过包含 嵌入层的上下文编 码器以得到对应于各个成员的静态信息的静态信息语义特征向量; 将所 述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器 以得到对应于各个成员的行为数据的行为数据语义特征向量; 针对所述所有成员中的各个 成员, 计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征 向量之间的向量乘积以得到各个成员的静态 ‑行为关联特征矩阵; 针对所述各个成员的静 态‑行为关联特征矩阵, 对所述各个成员的静态 ‑行为关联特征矩阵进 行按行和按列的特征 分布校正以得到对应于各个 成员的静态 ‑行为关联特征矩阵的第一特征向量和 第二特征向 量; 基于所述第一特征向量和所述第二特征向量, 生成对应于各个成员的校正后静态 ‑行为 关联特征矩阵; 对所述所有成员的校正后静态 ‑行为关联特征矩阵进行聚类分析以得到多 个聚类; 以及为所述多个聚类中各个聚类指定类标签。 2.根据权利要求1所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器 以得到对应于各个成员的静态信息的静态信息语义特征向量, 包括: 使用所述上下文编码 器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得 到对应于各个成员的静态信息的嵌入向量的序列; 使用所述上下文编 码器的基于转换器的 Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语 义编码以得到对应于各个成员的静态信息的多个特征向量; 以及将所述对应于各个 成员的 静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语 义特征向量。 3.根据权利要求2所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编 码器以得到对应于各个成员的行为数据的行为数据语义特征向量, 包括: 使用所述上下文 编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量 以得到对应于各个成员的行为数据的嵌入向量的序列; 使用所述上下文编 码器的基于转换 器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下 文语义编 码以得到对应于各个成员的行为数据的多个特征向量; 以及将所述对应于各个成 员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数 据语义特 征向量。 4.根据权利要求3所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 针对所述各个成员的静态 ‑行为关联特征矩阵, 对 所述各个成员的静态 ‑行为关联特征矩阵 进行按行和按列的特征分布校正以得到对应于各个成员的静态 ‑行为关联特征矩阵的第一 特征向量和第二特征向量, 包括: 对所述各个成员的静态 ‑行为关联特征矩阵进 行按行和按 列的语义推理信息显式泛化以得到所述对应于各个成员的静态 ‑行为关联特征矩阵的第一 特征向量和第二特征向量, 其中, 所述按行和按列的语义推理信息显式泛化基于以所述静 态‑行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值 与所述静态 ‑行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之 间的差值来权 利 要 求 书 1/2 页 2 CN 114970775 A 2进行。 5.根据权利要求4所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 对所述各个 成员的静态 ‑行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得 到所述对应于各个成员的静态 ‑行为关联特征矩阵的第一特征向量和 第二特征向量, 包括: 以如下公式对所述各个成员的静态 ‑行为关联特征矩阵进 行按行和按列的语义推理信息显 式泛化以得到所述对应于各个成员的静态 ‑行为关联特征矩阵的第一特征向量和 第二特征 向量: 其中, 所述公式为: 其中 是所述关联特征矩阵转换到概率空间的每个位置的特征值, 表示向量的按 位置相减, 表示向量的对数运算, 所述向量的对数运算表示计算所述向量中各个位 置的特征值的对数函数值, 是第一特 征向量, 是第二特 征向量。 6.根据权利要求5所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 基于所述第一特征向量和所述第二特征向量, 生成对应于各个成员的校正后静态 ‑行为关 联特征矩阵, 包括: 以如下公式计算所述一特征向量的转置 向量与所述第二特征向量之间 的乘积以得到校正后静态 ‑行为关联 特征矩阵; 其中, 所述公式为: 其中, 是所述校正后静态 ‑行为关联特征矩阵, 是所述第一特征向量, 是所述 第二特征向量。 7.根据权利要求6所述的基于聚类的军工集团人员 信息标签化方法, 其特征在于, 所述 对所述所有成员的校正后静态 ‑行为关联特征矩阵进 行聚类分析以得到多个聚类, 包括: 使 用KNN聚类算法对所述所有成员的校正后静态 ‑行为关联特征矩阵进行聚类分析以得到所 述多个聚类。权 利 要 求 书 2/2 页 3 CN 114970775 A 3

PDF文档 专利 基于聚类的军工集团人员信息标签化方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于聚类的军工集团人员信息标签化方法 第 1 页 专利 基于聚类的军工集团人员信息标签化方法 第 2 页 专利 基于聚类的军工集团人员信息标签化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。