全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211243691.9 (22)申请日 2022.10.11 (71)申请人 新疆大学 地址 830046 新疆 维吾尔自治区乌鲁 木齐 市胜利路6 66号 (72)发明人 郑媛 殷俊 买合木提·买买提  卡哈尔江·阿比的热西提   (74)专利代理 机构 重庆百润洪知识产权代理有 限公司 5 0219 专利代理师 陈付玉 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 一种基于长篇科学文献的关键词抽取方法 (57)摘要 本发明提供一种基于长篇科学文献的关键 词抽取方法。 对科学文献的单词进行统计, 统计 字数长度在8000 ‑40000字, 人工统计时间在10 ‑ 60分钟, 将长篇科学文献进行分块处理, 再对文 档进行标记并用词性Part ‑Of‑Speech(POS)标签 标记文档。 本发 明提供的基于长篇科学文献的关 键词抽取方法, 通过引入 “分块”的概念, 极大的 完善了BERT模型固有的对输入端长度的限制, 提 出了Block ‑BERT模型进行处理, 联合全局和局部 信息, 保留全面的语义信息, 有效的对长篇科学 文献进行关键词的提取, 与现有的模型相比, 性 能得到了极大的提升, 尽量避免了关键词语义信 息的缺失, 提出新的节点中心性的计算排名方法 Block‑Rank, 局部信息采用基于图结构 模型来衡 量节点的重要程度。 权利要求书2页 说明书7页 附图1页 CN 115526185 A 2022.12.27 CN 115526185 A 1.一种基于长篇科学文献的关键词抽取方法, 其特征在于, 对科学文献的单词进行统 计, 统计字数长度在8000 ‑40000字, 人工统计时间在10 ‑60分钟, 将长篇科学文献进行分块 处理, 再对文档进行标记并用词性Part ‑Of‑Speech(POS)标签标记文档。 文档D被标记为 {Wt1,Wt2,…,Wtn}, 从文档D中提取的候选词组则被表示为{CP0,CP1,…,CPn}。 使用BERT 来获 取上下文动态向量的表示{T1,T2,…,TN}=BERT({t1,t2,…,tN})。 2.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 所述Ti是 每个tokenti所对应的向量表示。 然后通过计算短语标记向量的平均值来获取候选短语的 向量表示 表示 候选词组对应的数个to ken的编号组成的集 合。 3.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 将为整个 文档的向量表示, 包含全局的语义信息和一系列候选短语 短语和文 档的相似度采用曼哈顿距离进行计算: 4.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 进行候选 短语的排名, 局部信息采用图结构模型进行处理, 基于图的关键词提取排序算法通常将文 档看作一个图 其中的 表示图中节点的向量集合, 其中 表示候选短语之间点积相似度得分组成的向量。 表示每 对候选短语向量表示 点积相似度得分。 5.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 使用节点 的中心性 来衡量节点 的重要性, 点i的中心度权重矩 阵。 此时 6.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 为控制长 篇科学文献中的首位边界关键词的重要性, 加入边界函数Fb(x), Fb(x)=min(x, α(N ‑x)), N 代表候选短语的数量, α表示一个控制文档各个位置相对重要性的超参数。 如果Fb(i)<Fb (j), 则说明节点 i比节点j更加靠 近边界。 7.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 对于i, j 两个节点之间中心性的作用, 需要减少 中心性的相互作用, 重构相似度权重矩阵 的计权 利 要 求 书 1/2 页 2 CN 115526185 A 2算。 其中 , λ用于减少不在边界附近出现的短语对节点i的中心性的 影响。 8.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 使用阈值 θ来过滤与节点i完全不同的噪声节点, 对于eij<θ,将其设置为0, 来消除这些 噪声节点对中 心度的影响。 β 是一个控制过滤边界的超参数, 随着噪声过滤策略的引入。 此时节点的中心 性: 9.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 联合全局 和局部信息进行处理, 根据 的得分, 选择出 top n个关键词作为 最终敲定的结果。权 利 要 求 书 2/2 页 3 CN 115526185 A 3

PDF文档 专利 一种基于长篇科学文献的关键词抽取方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于长篇科学文献的关键词抽取方法 第 1 页 专利 一种基于长篇科学文献的关键词抽取方法 第 2 页 专利 一种基于长篇科学文献的关键词抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。