全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111671262.7 (22)申请日 2021.12.31 (71)申请人 杭州师范大学 地址 311121 浙江省杭州市余杭区余杭塘 路2318号 (72)发明人 刘闯 张国帆 詹秀秀 黄鹂强  张子柯  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 陈炜 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/2457(2019.01) G06F 16/25(2019.01) G06F 17/18(2006.01)G06K 9/62(2022.01) G06Q 10/06(2012.01) (54)发明名称 一种基于复杂网络的科研人员数据处理方 法 (57)摘要 本发明公开了一种基于复杂网络的科研人 员数据处理方法。 本发明方法包括数据采集与处 理、 科研合作网络构建、 特征提取、 结果评估四个 模块。 数据处理包括清理脏数据、 补全遗失数据 以及提取精 准信息、 作者重名处理和数据统计分 析等。 科研合作网络构建是项目合作网络和论文 合作网络的构建。 特征提取包括计量特征提取、 网络拓扑特征提取和网络隐含特征提取, 这三部 分特征可以保证数据处理结果的准确性与可靠 性。 结果评估采用基于混淆矩阵的ROC曲线测试 本专利的数据处理效果。 本发明方法从数据挖掘 和网络特征的角度研究国家自然科学基金等科 研人员的科研数据, 通过计量特征、 网络拓扑特 征和网络隐含特征对科研人员 数据进行细致而 准确的处 理。 权利要求书3页 说明书8页 附图1页 CN 114328673 A 2022.04.12 CN 114328673 A 1.一种基于复杂网络的科研人员数据处理方法, 其特征在于: 该方法包括数据采集和 数据预处 理模块、 合作网络构建模块、 特 征提取模块、 结果评估 模块, 具体如下: (1)数据采集和数据预处 理模块: (1‑1)数据收集: 通过公开数据平台, 获得科研人员 往年项目的所有信息; 通过科研项 目, 在论文库中检索获得与之相关的所有论文; (1‑2)数据预处理: 将没有论文信息的科研项目数据和没有科研项目信息的论文数据 删除, 并将科研项目数据和论文数据处 理成用于后续研究的格式; (1‑3)数据统计分析: 统计不同科研项目数量下的平均论文数量, 得到不同科研项目对应的平均论文数; 统 计不同科研项目数量下的平均职业 年龄; 对科研项目数量、 论文数量和职业年龄按照学科进行数量分布 统计; 分别对不同类型、 不同学科项目的等待时间和生存时间进行数量分布统计; 对科研项目等待时间内的论文 数 进行统计分析; 按照职业 年龄的不同对项目负责人的生存时间进行统计分析; (2)合作网络构建模块: (2‑1)科研项目合作网络: 对所有的科研项目数据排除异常值, 并对数据中的项目负责人和参与人加以区分, 异 常值包括空值、 乱码和信息严重缺 失; 项目合作网络中以人员编号是唯一标识符; 构建科研 项目合作网络Gf=(Vf,Ef), 其中Vf表示节点集, 即项目人员, 包括项目负责人和参与人, Ef表 示边集, 表示两个人员共同出现在同一个项目中, 边权表示共同的项目数; (2‑2)论文合作网络: 构建论文合作网络Gp=(Vp,Ep), Vp表示节点集, 即论文作者; Ep表示边集, 表示两个作者 共同合作发表文章, 边的权 重表示共同发表论文篇数; (3)特征提取模块: 提取的特 征包括计量特 征、 网络拓扑特征和网络隐含特 征; (3‑1)计量特 征: 基于科研人员的项目信息和论文信息, 提取以下 特征: (3‑1‑1)基于项目的特征: 科研人员的项目总数、 每年的项目数、 平均每年项目数、 项目 级别、 项目类型和项目学 科; (3‑1‑2)基于论文的特征: 科研人员的论文总数、 每年的论文数、 每年的第一作者论文 数、 通讯作者 论文数和其 他作者论文数; (3‑2)网络拓扑特征: 从科研项目合作网络和论文合作网络 中提取特征, 包括: 科研人员的度、 科研人员的强 度、 科研人员的特征向量中心 性; 所述的科研人员的度为与该科研人员相连的边的数量; 所 述的科研人员的强度为与该科研人员相连的边权重之和; 所述的科研人员的特征向量中心 性为全局结构上的科研人员重要性; (3‑2‑1)科研项目合作网络中科研人员的度 和论文合作网络中科研人员的度 上标F表示科研项目合作网络, 上 标P表示论文合作网络: 其中, NF表示科研项目合作网络中的节 点权 利 要 求 书 1/3 页 2 CN 114328673 A 2个数, 如果科研项目合作网络中节点i和节点j有连边, 则 否则 NP表示论文合 作网络中的节点个数, 若论文合作网络中节点 i和节点j有连边, 则 否则 (3‑2‑2)科研项目合作网络科研人员的强度 和论文合作网络科研人员的强度 其中, 表示科研项目合作网络中节点i 和节点j的连边权重, 若节点i和节点j有共同的项目, 则 等于共同项目数, 否则 表示论文合作网络中节点i和节点j的连边权重, 若节点i和节点j有共同发表论文, 则 等于共同发表论文数, 否则 (3‑2‑3)科研项目合作网络中科研人员的特征 向量中心性ECF(i)和论文合作网络中科 研人员的特 征中心性E CP(i): 其中, 是矩 阵AF的最大特征值λF对应的特征向量, 表示科研项 目合作网络的邻接矩阵; 具体 计算通过给定的初值ECF(0), 使用迭代算法 计算向量ECF, 直到ECF(t)=ECF(t‑1); 表示论文合作网络中节点i的重要性, 科研项目合作网络中特 征向量中心性表明科研人员的重要性取决于其 合作者的重要性; (3‑3)网络隐含特 征的提取: 对于一个网络G=(V,E), V和E分别表示节点集和边集, 节点集表示科研人员, 边集表示 人员之间有 过合作; 节点嵌入的目标是需要找到一个映射f, 使 得每个节点被表示为一个向 量, 即f:V →Rd, 其中d为特 征向量的维度; 采用node2vec算法进行网络嵌入, 使用有偏的随机游走方法得到顶点的近邻序列, 然 后用Skip‑gram模型进行训练, 得到节点向量; (4)结果评估 模块: (4‑1)数据集划分: 对于每个科研人员, 将计量特征、 网络拓扑特征和网络隐含特征进 行整合, 并基于数据的时序性构造 了训练样本和 测试样本; (4‑2)基于划分好的数据集, 使用随机森林 方法对科研人员的科研数据进行 结果评估; (4‑3)结果评估: 评估结果通过AUC指标进行评估; AUC表示ROC曲线下的面积, ROC曲线是将假阳性率FPR 定义为x轴, 真阳性 率TPR定义 为y轴; TP表示测试集中科研人员 有科研项目且预期结果 为有科研项目的个数; FP表示测试集中没有科研项目且预期结果为有科研项目的个数; FN 表示测试集中有科研项目且预期结果为没有 科研项目的个数; TN表示测试集中没有 科研项 目且预期结果 为没有科研项目的个数;权 利 要 求 书 2/3 页 3 CN 114328673 A 3

.PDF文档 专利 一种基于复杂网络的科研人员数据处理方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于复杂网络的科研人员数据处理方法 第 1 页 专利 一种基于复杂网络的科研人员数据处理方法 第 2 页 专利 一种基于复杂网络的科研人员数据处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:42:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。