(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211243691.9
(22)申请日 2022.10.11
(71)申请人 新疆大学
地址 830046 新疆 维吾尔自治区乌鲁 木齐
市胜利路6 66号
(72)发明人 郑媛 殷俊 买合木提·买买提
卡哈尔江·阿比的热西提
(74)专利代理 机构 重庆百润洪知识产权代理有
限公司 5 0219
专利代理师 陈付玉
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
(54)发明名称
一种基于长篇科学文献的关键词抽取方法
(57)摘要
本发明提供一种基于长篇科学文献的关键
词抽取方法。 对科学文献的单词进行统计, 统计
字数长度在8000 ‑40000字, 人工统计时间在10 ‑
60分钟, 将长篇科学文献进行分块处理, 再对文
档进行标记并用词性Part ‑Of‑Speech(POS)标签
标记文档。 本发 明提供的基于长篇科学文献的关
键词抽取方法, 通过引入 “分块”的概念, 极大的
完善了BERT模型固有的对输入端长度的限制, 提
出了Block ‑BERT模型进行处理, 联合全局和局部
信息, 保留全面的语义信息, 有效的对长篇科学
文献进行关键词的提取, 与现有的模型相比, 性
能得到了极大的提升, 尽量避免了关键词语义信
息的缺失, 提出新的节点中心性的计算排名方法
Block‑Rank, 局部信息采用基于图结构 模型来衡
量节点的重要程度。
权利要求书2页 说明书7页 附图1页
CN 115526185 A
2022.12.27
CN 115526185 A
1.一种基于长篇科学文献的关键词抽取方法, 其特征在于, 对科学文献的单词进行统
计, 统计字数长度在8000 ‑40000字, 人工统计时间在10 ‑60分钟, 将长篇科学文献进行分块
处理, 再对文档进行标记并用词性Part ‑Of‑Speech(POS)标签标记文档。 文档D被标记为
{Wt1,Wt2,…,Wtn}, 从文档D中提取的候选词组则被表示为{CP0,CP1,…,CPn}。 使用BERT 来获
取上下文动态向量的表示{T1,T2,…,TN}=BERT({t1,t2,…,tN})。
2.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 所述Ti是
每个tokenti所对应的向量表示。 然后通过计算短语标记向量的平均值来获取候选短语的
向量表示
表示
候选词组对应的数个to ken的编号组成的集 合。
3.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 将为整个
文档的向量表示, 包含全局的语义信息和一系列候选短语
短语和文
档的相似度采用曼哈顿距离进行计算:
4.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 进行候选
短语的排名, 局部信息采用图结构模型进行处理, 基于图的关键词提取排序算法通常将文
档看作一个图
其中的
表示图中节点的向量集合, 其中
表示候选短语之间点积相似度得分组成的向量。
表示每
对候选短语向量表示
点积相似度得分。
5.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 使用节点
的中心性
来衡量节点 的重要性,
点i的中心度权重矩
阵。 此时
6.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 为控制长
篇科学文献中的首位边界关键词的重要性, 加入边界函数Fb(x), Fb(x)=min(x, α(N ‑x)), N
代表候选短语的数量, α表示一个控制文档各个位置相对重要性的超参数。 如果Fb(i)<Fb
(j), 则说明节点 i比节点j更加靠 近边界。
7.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 对于i, j
两个节点之间中心性的作用, 需要减少 中心性的相互作用, 重构相似度权重矩阵
的计权 利 要 求 书 1/2 页
2
CN 115526185 A
2算。
其中
, λ用于减少不在边界附近出现的短语对节点i的中心性的
影响。
8.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 使用阈值
θ来过滤与节点i完全不同的噪声节点, 对于eij<θ,将其设置为0, 来消除这些 噪声节点对中
心度的影响。 β 是一个控制过滤边界的超参数, 随着噪声过滤策略的引入。 此时节点的中心
性:
9.根据权利要求1所述的基于长篇科学文献的关键词抽取方法, 其特征在于, 联合全局
和局部信息进行处理,
根据
的得分, 选择出
top n个关键词作为 最终敲定的结果。权 利 要 求 书 2/2 页
3
CN 115526185 A
3
专利 一种基于长篇科学文献的关键词抽取方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:39上传分享