专利 基于超图神经网络的生物医学事件触发词提取方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211308507.4 (22)申请日 2022.10.25 (71)申请人扬州大学地址 225009 江苏省扬州市大学南路88号 (72)发明人朱哲宇　章永龙　孙小兵　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师孟红梅 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于超图神经网络的生物医学事件触发词提取方法与系统 (57)摘要本发明涉及自然语言处理领域，具体涉及一种基于超图神经网络的生物医学事件触发词提取方法与系统。本发明方法首先预处理非结构化的生物医学数据集；接着通过预训练的模型得到生物医学语料库中所有文本信息的特征嵌入，获取每个单词的向量表示；随后将每条句子生成相应的超图结构；再将得到的每条句子的特征嵌入和超图结构输入到超图卷积神经网络中，定义交叉熵损失函数训练模型；最后，在未标注的测试集上进行触发词检测。本发明不同于现有方法采用双向的LSTM来聚合每条句子中的上下文信息，而是创新性的使用超图结构聚合上下文信息，效果卓越，达到了提高生物医学文本中触发词提取准确性的目的。权利要求书3页说明书6页附图1页 CN 115496075 A 2022.12.20 CN 115496075 A 1.一种基于超图神经网络的生物医学事件触发词提取方法，其特征在于，包括以下步骤：步骤1，对生物医学数据集进行预处理，包括分句、分词和标注，获得有标注的结构化训练集和无标注的测试集；步骤2，使用分词工具获得句子中的token，并通过预训练的bio ‑BERT模型获得每个 token的词向量，然后通过平均池化将to ken连接为单词，得到句子中每个单词的特征表示；步骤3，以窗口大小为超参数，基于滑动窗口的方法，构建每个句子的超图结构；步骤4，通过超图卷积神经网络聚合句子中每个单词的语义特征，基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优；步骤5，利用步骤4中训练好的深度学习模型，在未标注的测试集上进行测试，识别生物医学事件触发词。 2.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法，其特征在于，步骤1中生物医学数据集预处理的具体过程包括：步骤1‑1，将生物医学数据集划分为训练集和测试集；步骤1‑2，将非结构化的生物医学数据集进行分句处理，得到数量为n的句子序列S＝ {s1， s2， ...， si， ...， sn}，其中si表示第i个句子序列；步骤1‑3，将句子si通过分词，得到单词序列为si＝{w1， w2， ...， wj， ...， wm}，其中m为句子的长度， wj表示单词序列中的第j个单词；步骤1‑4，借助BIO三元标注法设置类别集合为L＝{l1， l2， l3}，其中l1表示触发词的开头位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型；步骤1‑5，对句子si进行标注，得到该句子对应的标签序列Yi＝{y1， y2， ...， yj， ...， ym}，其中yj表示句子中第j个单词的标签且yj∈L，并最终得到训练集的标签序列Y＝{Y1， Y2， ...， Yi， ...， Yn}。 3.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法，其特征在于，步骤2中得到句子中每个单词的特征表示的具体过程包括：步骤2‑1，使用bio ‑BERT模型自带的tokenization分词工具进行对第i个单词序列进行分词，将长单词和生物医学的专有名词拆分为多个token，则得到的token序列为Ti＝{t1， t2， ...， tk}，其中k为句子中to ken的个数且k≥m；步骤2‑2，将token序列输入进预训练的bio ‑BERT模型，随后将模型12个decoder层的最后四层输出平均池化作为最终的输出；步骤2‑3，将步骤2 ‑1中经过分词的单词的token的特征向量通过平均池化的方法得到单词的特征表示，最终得到句子的特征向量 Xi＝{x1， x2， ...， xj， ...， xm}，所有句子的特征向量X＝{X1， X2， ...， Xi， ...， Xn}， xj表示句子中第j个单词的特征表示。 4.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法，其特征在于，步骤3中对于每个句子构建超图具体过程包括：步骤3‑1，以每个单词为顶点构建顶点集合为V＝{w1， w2， ...， wm}；步骤3‑2，采用滑动窗口的方法，窗口大小为超参数，初始设置为3，则得到超边的集合为E＝{(w1， w2， w3)， (w2， w3， w4)， ...， (wm‑2， wm‑1， wm)}；步骤3‑3，第i个句子构建的超图Gi＝{(V， E)|V＝(w1， w2， ...， wm)， E＝{(w1， w2， w3)， (w2，权　利　要　求　书 1/3 页 2 CN 115496075 A 2w3， w4)， ...， (wm‑2， wm‑1， wm)}}。 5.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法，其特征在于，步骤4中语义特征聚合具体过程包括：步骤4‑1，将所有句子超图集合G，所有句子特征向量X，句子数量n，所有句子标签序列Y 作为超图卷积神经网络 HGCN输入；步骤4‑2，使用两层的HGCN卷积聚合领域的语义信息，其输出为单词得分，公式如下：其中， Xi是第i个句子的特征向量， θ1和θ2是权重矩阵， ReLU是非线性激活函数， A是第i个句子的超图Gi的邻接矩阵， I是单位矩阵，是A的度矩阵， softmax 函数定义为其中xi是模型经过一层HGCN后的输出的第 i个单词的特征向量， xj是第j个单词的特征向量；步骤4‑3，模型训练，采用梯度下降算法，最小化损失函数，不断优化模型中的参数，损失函数定义如下：其中， Vt是训练集， Zij是模型对第i个单词的第j个标签的预测标签， Yij是符号函数，当第i个单词的标签为j时取1，否则为0；步骤4‑4，根据模型的结果调整超参数，即滑动窗口的大小并开启新一轮的实验，以找到超参数的最优解。 6.一种基于超图神经网络的生物医学事件触发词提取系统，其特征在于，包括：预处理模块，用于对生物医学数据集进行分句、分词和标注，获得有标注的结构化训练集和无标注的测试集；单词特征表示模块，用于使用分词工具获得句子中的token，并通过预训练的bio ‑BERT 模型获得每个token的词向量，然后通过平均池化将token连接为单词，得到句子中每个单词的特征表示；超图构建模块，用于以窗口大小为超参数，基于滑动窗口的方法，构建每个句子的超图结构；语义特征聚合模块，用于通过超图卷积神经网络聚合句子中每个单词的语义特征，基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优；触发词检测模块，用于利用训练好的深度学习模型，在未标注的测试集上进行测试，识别生物医学事件触发词。 7.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统，其特征在于，所述预处理模块中，借助BIO三元标注法设置类别集合为L＝{l1， l2， l3}，其中l1表示触发词的开头位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型；对句子中的所有单词进行标注，得到句子对应的标签序列。 8.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统，其特征在于，所述超图构建模块中，以每个单词为顶点构建顶点集合，采用滑动窗口的方法，以窗权　利　要　求　书 2/3 页 3 CN 115496075 A 3

专利 基于超图神经网络的生物医学事件触发词提取方法与系统

专利基于超图神经网络的生物医学事件触发词提取方法与系统