(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211308507.4
(22)申请日 2022.10.25
(71)申请人 扬州大学
地址 225009 江苏省扬州市大 学南路88号
(72)发明人 朱哲宇 章永龙 孙小兵
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 孟红梅
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/211(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于超图神经网络的生物医学事件触发词
提取方法与系统
(57)摘要
本发明涉及自然语 言处理领域, 具体涉及一
种基于超图神经网络的生物医学事件触发词提
取方法与系统。 本发明方法首先预处理非结构化
的生物医学数据集; 接着通过预训练的模型得到
生物医学语料库中所有文本信息的特征嵌入, 获
取每个单词的向量表示; 随后将每条句子生成相
应的超图结构; 再将得到的每条句子的特征嵌入
和超图结构输入到超图卷积神经网络中, 定义交
叉熵损失函数训练模型; 最后, 在未标注的测试
集上进行触发词检测。 本发明不同于现有方法采
用双向的LSTM来聚合每条句子中的上下文信息,
而是创新性的使用超图结构聚合上下文信息, 效
果卓越, 达到了提高生物医学文本中触发词提取
准确性的目的。
权利要求书3页 说明书6页 附图1页
CN 115496075 A
2022.12.20
CN 115496075 A
1.一种基于超图神经网络的生物医学事件触发词提取方法, 其特征在于, 包括以下步
骤:
步骤1, 对生物医学数据集进行预处理, 包括分句、 分词和标注, 获得有标注的结构化训
练集和无 标注的测试集;
步骤2, 使用分词工具获得句子中的token, 并通过预训练的bio ‑BERT模型获得每个
token的词向量, 然后通过平均池化将to ken连接为单词, 得到句子中每 个单词的特 征表示;
步骤3, 以窗口大小为超参数, 基于滑动窗口 的方法, 构建每 个句子的超图结构;
步骤4, 通过超图卷积神经网络聚合句子 中每个单词的语义特征, 基于训练集对超图卷
积神经网络模型参数以及超参数进行训练调优;
步骤5, 利用步骤4中训练好的深度学习模型, 在未标注的测试集上进行测试, 识别生物
医学事件触发词。
2.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征
在于, 步骤1中生物医学 数据集预处 理的具体过程包括:
步骤1‑1, 将生物医学 数据集划分为训练集和 测试集;
步骤1‑2, 将非结构化的生物医学数据集进行分句处理, 得到数量为n的句子序列S=
{s1, s2, ..., si, ..., sn}, 其中si表示第i个句子序列;
步骤1‑3, 将句子si通过分词, 得到单词序列为si={w1, w2, ..., wj, ..., wm}, 其中m为句
子的长度, wj表示单词序列中的第j个单词;
步骤1‑4, 借助BIO三元标注法设置类别集合为L={l1, l2, l3}, 其中l1表示触发词的开头
位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型;
步骤1‑5, 对句子si进行标注, 得到该句子对应的标签序列Yi={y1, y2, ..., yj, ..., ym},
其中yj表示句子中第j个单词的标签且yj∈L, 并最终得到训练集的标签序列Y={Y1,
Y2, ..., Yi, ..., Yn}。
3.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征
在于, 步骤2中得到句子中每 个单词的特 征表示的具体过程包括:
步骤2‑1, 使用bio ‑BERT模型自带的tokenization分词工具进行对第i个单词序列进行
分词, 将长单词和生物医学的专有名词拆分为多个token, 则得到 的token序列为Ti={t1,
t2, ..., tk}, 其中k为句子中to ken的个数且k≥m;
步骤2‑2, 将token序列 输入进预训练的bio ‑BERT模型, 随后将模型12个decoder层的最
后四层输出平均池化作为 最终的输出;
步骤2‑3, 将步骤2 ‑1中经过分词的单词的token的特征向量通过平均池化的方法得到
单词的特征表示, 最终得到句子的特征向量 Xi={x1, x2, ..., xj, ..., xm}, 所有句子的特征向
量X={X1, X2, ..., Xi, ..., Xn}, xj表示句子中第j个单词的特 征表示。
4.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征
在于, 步骤3中对于每 个句子构建超图具体过程包括:
步骤3‑1, 以每个单词为顶点构建顶点 集合为V={w1, w2, ..., wm};
步骤3‑2, 采用滑动窗口的方法, 窗口大小为超参数, 初始设置为3, 则得到超边的集合
为E={(w1, w2, w3), (w2, w3, w4), ..., (wm‑2, wm‑1, wm)};
步骤3‑3, 第i个句子构建的超图Gi={(V, E)|V=(w1, w2, ..., wm), E={(w1, w2, w3), (w2,权 利 要 求 书 1/3 页
2
CN 115496075 A
2w3, w4), ..., (wm‑2, wm‑1, wm)}}。
5.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征
在于, 步骤4中语义特 征聚合具体过程包括:
步骤4‑1, 将所有句子超图集合G, 所有句子特征向量X, 句子数量n, 所有句子标签序列Y
作为超图卷积神经网络 HGCN输入;
步骤4‑2, 使用两层的HGCN卷积聚合领域的语义信息, 其输出为单词得分, 公式如下:
其中, Xi是第i个句子的特征向量, θ1和θ2是权重矩阵, ReLU是非线性激活函数,
A是第i个句子的超图Gi的邻接矩阵, I是单位矩阵,
是A的度矩
阵, softmax 函数定义为
其中xi是模型经过一层HGCN后的输出的第
i个单词的特 征向量, xj是第j个单词的特 征向量;
步骤4‑3, 模型训练, 采用梯度下降算法, 最小化损失函数, 不断优化模型中的参数, 损
失函数定义如下:
其中, Vt是训练集, Zij是模型对第i个单词的第j个标签的预测标签, Yij是符号函数, 当
第i个单词的标签为j时取1, 否则为0;
步骤4‑4, 根据模型的结果调整超参数, 即滑动窗口的大小并开启新一轮的实验, 以找
到超参数的最优解。
6.一种基于超图神经网络的生物医学事 件触发词提取系统, 其特 征在于, 包括:
预处理模块, 用于对生物医学数据集进行分句、 分词和标注, 获得有标注的结构化训练
集和无标注的测试集;
单词特征表示模块, 用于使用分词工具获得句子中的token, 并通过预训练的bio ‑BERT
模型获得每个token的词向量, 然后通过平均池化将token连接为单词, 得到句子中每个单
词的特征表示;
超图构建模块, 用于以窗口大小为超参数, 基于滑动窗口的方法, 构建每个句子的超图
结构;
语义特征聚合模块, 用于通过超图卷积神经网络聚合句子中每个单词的语义特征, 基
于训练集对 超图卷积神经网络模型参数以及超参数进行训练调优;
触发词检测模块, 用于利用训练好的深度 学习模型, 在未标注的测试集上进行测试, 识
别生物医学事 件触发词。
7.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统, 其特征
在于, 所述预处理模块中, 借助BIO三元标注法设置类别集合为L={l1, l2, l3}, 其中l1表示
触发词的开头位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型; 对句子 中的所有
单词进行 标注, 得到句子对应的标签序列。
8.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统, 其特征
在于, 所述超图构建模块中, 以每个单词为顶点构建顶点集合, 采用滑动窗口的方法, 以窗权 利 要 求 书 2/3 页
3
CN 115496075 A
3
专利 基于超图神经网络的生物医学事件触发词提取方法与系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:14上传分享