全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210022627.1 (22)申请日 2022.01.10 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 林伟伟 许皓钧  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 李斌 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/34(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) (54)发明名称 基于学者研究兴趣知识图谱的学者推荐方 法、 系统及 介质 (57)摘要 本发明公开了一种基于学者研究兴趣知识 图谱的学者推荐方法、 系统及介质, 涉及文本挖 掘、 数据挖掘与推荐系统领域。 本发明所涉及的 主要流程包括: 学者学术成果数据的采集与处 理; 学者研究兴趣标签数据的采集与处理; 学者 研究兴趣 标签识别模型的训练与存储; 基于学者 研究兴趣知识图谱图神经网络的需求学者推荐。 本发明提出的方法为一种基于知识图谱和图神 经网络的学者推荐方法, 可以在学术大数据背景 下挖掘实际需求文本中的深度知识需求和学者 学术知识间的关联, 实现面向实际需求且符合深 度需求知识关联模式的学者智能推荐。 权利要求书4页 说明书11页 附图5页 CN 114547275 A 2022.05.27 CN 114547275 A 1.基于学者研究兴趣知识图谱的学者推荐方法, 其特 征在于, 包括以下步骤: 收集学者所有的学术成果信息, 对学术成果当中的文本信息进行文本预处理, 并进一 步对学者的学术成果信息进行 结构化处 理; 收集各学者的多个学术研究兴趣标签, 并清洗和统一所收集的学者学术研究兴趣标 签; 分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分 类模型的研究兴趣标签识别模型, 并对所训练的学术成果摘要文本主题模 型和研究兴趣标 签识别模型作存 储处理; 根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣 知识图谱, 并训练和存 储一个基于知识图谱的图神经网络学者推荐模型; 基于学术成果摘要文本主题模型对需求文本进行处理, 并利用所存储的基于知识图谱 的图神经网络学者推荐模型计算需求学者推荐清单。 2.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法, 其特征在于, 所述 收集学者所有的学术成果信息, 对学术成果当中的文本信息进行文本预处理, 并进一步对 学者的学术成果信息进行 结构化处 理, 具体为: 从学术数据源中收集学者所有的学术成果数据, 所收集的学术成果数据 具体包括学术 成果的作者、 摘要与学术成果引用关系; 对所收集的学术成果的摘要文本的文本数据进行预处理, 包括: 分词、 统一字符的大小 写或繁简体等表征同一字符的字符形式、 订正词语拼写错误与错别字、 去除停用 词和词干 或词形统一, 形成各 学术成果摘要的文本词序列; 对收集的所有学术成果进行编 号和所收集学术成果数据中所有学者进行编 号; 将各学 术成果以<学术成果编号, 学术成果作者学者编号集合, 引用学术成果编号集合>三元组形 式进行结构化, 形成结构化学术成果信息; 连接各学者所发表学术成果的摘要文本词序列, 以<学者编号, 学术成果文本词序列> 二元组形式进行 结构化, 形成结构化学者成果信息 。 3.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法, 其特征在于, 所述 收集各学者的多个学术研究兴趣标签, 并清洗和统一所收集的学者学术研究兴趣标签, 具 体为: 从学术数据源中收集或手动标识所有涉及学者的各NI个研究兴趣标签, 研究兴趣标签 可使用单词或词组表示; 对所收集的所有学者的研究兴趣标签进行清洗, 合并词义相同或相近的研究兴趣标 签, 并对学者研究兴趣标签进行编号。 4.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法, 其特征在于, 所述 分别训练学者学术成果摘要文本主题模型和研究兴趣标签识别模型, 并对 所训练的学术成 果摘要文本主题模型和研究兴趣标签识别模型作存 储处理, 具体为: 提取结构化学者成果信 息中各学者的学术成果摘要文本词序列, 结合各学者的研究兴 趣标签, 输入基于已有文本主题模型 的学术成果摘要文本主题模型, 训练并保存完成训练 的学术成果摘要 文本主题模型; 将各学者的学术成果摘要文本词序列输入所保存的学术成果摘要文本主题模型, 得到权 利 要 求 书 1/4 页 2 CN 114547275 A 2各学者所著学术成果的向量 化表示T; 将各学者学术成果的向量化表示T与学者的研究兴趣标签输入基于多标签分类模型的 研究兴趣标签识别模型, 训练并保存完成训练的研究兴趣标签识别模型。 5.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法, 其特征在于, 所述 建立学者研究兴趣知识图谱, 具体步骤为: 将各学者所述学术成果的向量化表示T作为各学者知识节点的特征表示N, 即学者i的 学者知识 节点特征Ni为: Ni=Ti 其中, Ti为学者i的学术成果的向量 化表示; 记生成的研究兴趣标签 所包含的学者序号为 则研究兴趣标签 知识节点的特 征表示为: 由学者u指向学者v的知识 节点间关系强度表示 为: 其中, Nac,v为学者v所有的学术成果数量, 为学者u和学者v共同发表的学术成果 数量, 为学者u所著的引用了学者v所著学术成果的学术成果数量; 将生成的各学者所著学术成果的向量化表示T输入所保存的研究兴趣标签识别模型, 得到各学者对各研究兴趣标签的依属概 率向量P; 学者i的知识节点与研究兴趣标签 的知识节点间的无向关系强度为: 其中, 为学者i的研究兴趣标签依属向量P的第 个元素; 研究兴趣标签 的知识节点与研究兴趣标签 的知识节点间无向关系强度为: 其中, 为研究兴趣标签 与研究兴趣标签 产生的学者研究兴趣标签数据中共现 的次数, Nall为各无序二元研究兴趣标签对产生的学者研究兴趣标签数据中共现的次数; 当 两个研究兴趣标签均为同一学者的学者研究兴趣标签时, 称以上两个研究兴趣标签构成的 无序二元研究兴趣标签对 共现一次; 整合各知识节点的特征与知识节点间的关系强度, 形成和保存学者研究兴趣知识图 谱。 6.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法, 其特征在于, 所述 训练和存 储一个基于知识图谱的图神经网络学者推荐模型, 具体为: 提取结构化学术成果信 息中各学术成果的摘要文本词序列, 输入所保存的学术成果摘 要文本主题模型, 得到各 学术成果摘要的向量 化表示d;权 利 要 求 书 2/4 页 3 CN 114547275 A 3

.PDF文档 专利 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 第 1 页 专利 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 第 2 页 专利 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。