全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210382556.6 (22)申请日 2022.04.12 (71)申请人 中国科学院计算机网络信息中心 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 李翀 张金杰 张士波 何晓涛  刘学敏  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 司立彬 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06F 16/332(2019.01) (54)发明名称 一种面向科研立项查重的句向量生成方法 及查重方法 (57)摘要 本发明公开了一种面向科研立项查重的句 向量生成方法及查重方法。 本发 明句向量生成方 法为: 1)对于一科研项目申报书的文本进行分 词, 计算每一分词w的词频及词频权重; 2)设置每 一分词w的词性权重; 3)根据分词w所在句子在所 述文本中的位置, 确定该句子中分词w的位置权 重; 4)根据各句子中分词的分词w的词频权重、 词 性权重和位置权重计算对应句子中分词w的词权 重; 5)根据分词w的词权重生成文本的句向量矩 阵; 6)去除句向量矩阵的前m个主成分, 对句向量 矩阵中的每一句向量进行更新; 7)将科研项目申 报书的文本输入Doc2Vec模型, 生成文本的句向 量并将其与步骤6)更新后的句向量加权平均, 得 到文本中每一句子对应的句向量。 权利要求书2页 说明书5页 附图1页 CN 114943220 A 2022.08.26 CN 114943220 A 1.一种面向科研立项查重的句向量 生成方法, 其 步骤包括: 1)对于一科研项目申报书 的文本进行分词, 计算所述文本中每一分词w的词频p(w)及 词频权重tf(w); 2)根据汉语的语法规则以及六类实词词性在科研项目文本中的分布, 设置每一分词w 的词性权 重tag(w); 其中六类实词 词性包括名词、 动词、 形容词、 代词、 量词和数词; 3)根据分词w所在句子在所述文本中的位置, 确定该句子中分词w的位置 权重pos(w); 4)根据各句子中分词的分词w的词频权重tf(w)、 词性权重tag(w)和位置权重pos(w)计 算对应句子中分词w的词权 重wgh(w); 5)根据分词w的词权 重wgh(w)生成所述文本的句向量矩阵A; 6)去除所述句向量矩阵A的前m个主成分, 对所述句向量矩阵A中的每一句向量进行更 新; 7)将科研项目申报书 的文本输入Doc2Vec模型, 生成所述文本的句向量并将其与步骤 6)更新后的对应句向量加权平均, 得到所述文本中每一句子对应的句向量。 2.根据权利要求1所述的方法, 其特征在于, 确定分词w的位置权重的方法为: 如果分词 w所在句子为所述文本的段落首句或末句, 则分词w的位置权重较高, 否则分词w的位置权重 较低。 3.根据权利要求1或2所述的方法, 其特征在于, 词权重wgh(w)=tf(w)*(1+tag(w)+p os (w))。 4.根据权利要求3所述的方法, 其 特征在于, 所述句向量矩阵 其中, 所述 文本中句子s的句向量 vw为分词w的词向量, n为所述文本中句子 总数。 5.根据权利要求4所述的方法, 其特征在于, 步骤6)中, 句向量cs更新后的向量 其中, σi为句向量矩阵A的第i个奇异值, ci为句向量 矩阵A的第i个奇异向量, 为句向量矩阵A中前m个奇异值中 的第j个奇异值的平方, λi为ci 的权重。 6.根据权利要求5所述的方法, 其特征在于, 步骤7)中, 句子s的句向量 其中, φ为加权系数, 为Doc2Vec训练生成的句子s的句向量。 7.根据权利要求1所述的方法, 其特征在于, 词频权重 其中, |V|是词典大小。 8.一种科研立项查重方法, 其 步骤包括: 1)采用权利要求1所述方法生成待查重科研项目申报书中文本的句向量, 并对所生成 的句向量进行加 和取平均得到该待查重科研项目申报书的语义表征向量; 2)计算该待查重科研项目申报书的语义表征向量与数据库中每一科研项目申报书对 应的语义表征向量之间的相似度, 如果相似度大于设定阈值, 则判定该待查重科研项目申权 利 要 求 书 1/2 页 2 CN 114943220 A 2报书为重复申报项目。 9.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述 计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至8任一 所述方法中各步骤的指令 。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114943220 A 3

.PDF文档 专利 一种面向科研立项查重的句向量生成方法及查重方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向科研立项查重的句向量生成方法及查重方法 第 1 页 专利 一种面向科研立项查重的句向量生成方法及查重方法 第 2 页 专利 一种面向科研立项查重的句向量生成方法及查重方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。