说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211308507.4 (22)申请日 2022.10.25 (71)申请人 扬州大学 地址 225009 江苏省扬州市大 学南路88号 (72)发明人 朱哲宇 章永龙 孙小兵  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 孟红梅 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于超图神经网络的生物医学事件触发词 提取方法与系统 (57)摘要 本发明涉及自然语 言处理领域, 具体涉及一 种基于超图神经网络的生物医学事件触发词提 取方法与系统。 本发明方法首先预处理非结构化 的生物医学数据集; 接着通过预训练的模型得到 生物医学语料库中所有文本信息的特征嵌入, 获 取每个单词的向量表示; 随后将每条句子生成相 应的超图结构; 再将得到的每条句子的特征嵌入 和超图结构输入到超图卷积神经网络中, 定义交 叉熵损失函数训练模型; 最后, 在未标注的测试 集上进行触发词检测。 本发明不同于现有方法采 用双向的LSTM来聚合每条句子中的上下文信息, 而是创新性的使用超图结构聚合上下文信息, 效 果卓越, 达到了提高生物医学文本中触发词提取 准确性的目的。 权利要求书3页 说明书6页 附图1页 CN 115496075 A 2022.12.20 CN 115496075 A 1.一种基于超图神经网络的生物医学事件触发词提取方法, 其特征在于, 包括以下步 骤: 步骤1, 对生物医学数据集进行预处理, 包括分句、 分词和标注, 获得有标注的结构化训 练集和无 标注的测试集; 步骤2, 使用分词工具获得句子中的token, 并通过预训练的bio ‑BERT模型获得每个 token的词向量, 然后通过平均池化将to ken连接为单词, 得到句子中每 个单词的特 征表示; 步骤3, 以窗口大小为超参数, 基于滑动窗口 的方法, 构建每 个句子的超图结构; 步骤4, 通过超图卷积神经网络聚合句子 中每个单词的语义特征, 基于训练集对超图卷 积神经网络模型参数以及超参数进行训练调优; 步骤5, 利用步骤4中训练好的深度学习模型, 在未标注的测试集上进行测试, 识别生物 医学事件触发词。 2.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征 在于, 步骤1中生物医学 数据集预处 理的具体过程包括: 步骤1‑1, 将生物医学 数据集划分为训练集和 测试集; 步骤1‑2, 将非结构化的生物医学数据集进行分句处理, 得到数量为n的句子序列S= {s1, s2, ..., si, ..., sn}, 其中si表示第i个句子序列; 步骤1‑3, 将句子si通过分词, 得到单词序列为si={w1, w2, ..., wj, ..., wm}, 其中m为句 子的长度, wj表示单词序列中的第j个单词; 步骤1‑4, 借助BIO三元标注法设置类别集合为L={l1, l2, l3}, 其中l1表示触发词的开头 位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型; 步骤1‑5, 对句子si进行标注, 得到该句子对应的标签序列Yi={y1, y2, ..., yj, ..., ym}, 其中yj表示句子中第j个单词的标签且yj∈L, 并最终得到训练集的标签序列Y={Y1, Y2, ..., Yi, ..., Yn}。 3.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征 在于, 步骤2中得到句子中每 个单词的特 征表示的具体过程包括: 步骤2‑1, 使用bio ‑BERT模型自带的tokenization分词工具进行对第i个单词序列进行 分词, 将长单词和生物医学的专有名词拆分为多个token, 则得到 的token序列为Ti={t1, t2, ..., tk}, 其中k为句子中to ken的个数且k≥m; 步骤2‑2, 将token序列 输入进预训练的bio ‑BERT模型, 随后将模型12个decoder层的最 后四层输出平均池化作为 最终的输出; 步骤2‑3, 将步骤2 ‑1中经过分词的单词的token的特征向量通过平均池化的方法得到 单词的特征表示, 最终得到句子的特征向量 Xi={x1, x2, ..., xj, ..., xm}, 所有句子的特征向 量X={X1, X2, ..., Xi, ..., Xn}, xj表示句子中第j个单词的特 征表示。 4.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征 在于, 步骤3中对于每 个句子构建超图具体过程包括: 步骤3‑1, 以每个单词为顶点构建顶点 集合为V={w1, w2, ..., wm}; 步骤3‑2, 采用滑动窗口的方法, 窗口大小为超参数, 初始设置为3, 则得到超边的集合 为E={(w1, w2, w3), (w2, w3, w4), ..., (wm‑2, wm‑1, wm)}; 步骤3‑3, 第i个句子构建的超图Gi={(V, E)|V=(w1, w2, ..., wm), E={(w1, w2, w3), (w2,权 利 要 求 书 1/3 页 2 CN 115496075 A 2w3, w4), ..., (wm‑2, wm‑1, wm)}}。 5.根据权利要求1所述的基于超图神经网络的生物医学事件触发词提取方法, 其特征 在于, 步骤4中语义特 征聚合具体过程包括: 步骤4‑1, 将所有句子超图集合G, 所有句子特征向量X, 句子数量n, 所有句子标签序列Y 作为超图卷积神经网络 HGCN输入; 步骤4‑2, 使用两层的HGCN卷积聚合领域的语义信息, 其输出为单词得分, 公式如下: 其中, Xi是第i个句子的特征向量, θ1和θ2是权重矩阵, ReLU是非线性激活函数, A是第i个句子的超图Gi的邻接矩阵, I是单位矩阵, 是A的度矩 阵, softmax 函数定义为 其中xi是模型经过一层HGCN后的输出的第 i个单词的特 征向量, xj是第j个单词的特 征向量; 步骤4‑3, 模型训练, 采用梯度下降算法, 最小化损失函数, 不断优化模型中的参数, 损 失函数定义如下: 其中, Vt是训练集, Zij是模型对第i个单词的第j个标签的预测标签, Yij是符号函数, 当 第i个单词的标签为j时取1, 否则为0; 步骤4‑4, 根据模型的结果调整超参数, 即滑动窗口的大小并开启新一轮的实验, 以找 到超参数的最优解。 6.一种基于超图神经网络的生物医学事 件触发词提取系统, 其特 征在于, 包括: 预处理模块, 用于对生物医学数据集进行分句、 分词和标注, 获得有标注的结构化训练 集和无标注的测试集; 单词特征表示模块, 用于使用分词工具获得句子中的token, 并通过预训练的bio ‑BERT 模型获得每个token的词向量, 然后通过平均池化将token连接为单词, 得到句子中每个单 词的特征表示; 超图构建模块, 用于以窗口大小为超参数, 基于滑动窗口的方法, 构建每个句子的超图 结构; 语义特征聚合模块, 用于通过超图卷积神经网络聚合句子中每个单词的语义特征, 基 于训练集对 超图卷积神经网络模型参数以及超参数进行训练调优; 触发词检测模块, 用于利用训练好的深度 学习模型, 在未标注的测试集上进行测试, 识 别生物医学事 件触发词。 7.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统, 其特征 在于, 所述预处理模块中, 借助BIO三元标注法设置类别集合为L={l1, l2, l3}, 其中l1表示 触发词的开头位置、 l2表示触发词的中间位置、 l3表示不属于触发词类型; 对句子 中的所有 单词进行 标注, 得到句子对应的标签序列。 8.根据权利要求6所述的基于超图神经网络的生物医学事件触发词提取系统, 其特征 在于, 所述超图构建模块中, 以每个单词为顶点构建顶点集合, 采用滑动窗口的方法, 以窗权 利 要 求 书 2/3 页 3 CN 115496075 A 3

PDF文档 专利 基于超图神经网络的生物医学事件触发词提取方法与系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于超图神经网络的生物医学事件触发词提取方法与系统 第 1 页 专利 基于超图神经网络的生物医学事件触发词提取方法与系统 第 2 页 专利 基于超图神经网络的生物医学事件触发词提取方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。