全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211040440.0 (22)申请日 2022.08.29 (71)申请人 重庆师范大学 地址 401331 重庆市沙坪坝区大 学城中路 37号 (72)发明人 崔少国 陈俊桦  (74)专利代理 机构 重庆信航知识产权代理有限 公司 50218 专利代理师 穆祥维 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于语义分割的药物不良事件关系抽 取方法 (57)摘要 本发明提供一种基于语义分割的药物不良 事件关系抽取方法, 包括以下步骤: 具有局部上 下文信息特征提取器、 语义特征融合器、 分类器 和样本不平衡处理器的药物不良事件关系抽取 模型搭建, 数据预处理, 模型训练与参数优化及 药物不良事件关系抽取。 本方法通过使用特殊符 号在药物提及前后进行标记并用悬浮标记将不 良事件提及标注拼接在文本后面, 能更好地识别 提及的边界; 同时引入U形语义分割网络融合局 部上下文信息来捕获药物不良事件之间的全局 相互依赖性, 能更精确的找到关键信息; 另外运 用一种平 衡的softmax方法来处理不平衡关系分 布, 避免不相关提及三元组对对模型造成的影 响, 更精准的抽取出医学文本中的药物不良事件 关系。 权利要求书3页 说明书9页 附图4页 CN 115392256 A 2022.11.25 CN 115392256 A 1.一种基于语义分割的药物不良事 件关系抽取 方法, 其特 征在于, 包括以下步骤: S1、 药物不良事 件关系抽取模型 搭建: 药物不良事件关系抽取模型用于将医学文本 中的药物及其造成的不良事件抽取出来, 模型结构包括局部上下文信息特征提取器、 语义特征融合器、 分类器和样本不平衡处理器; 其中, 所述局部上下文信息特征提取器用于从医学文本的输入中提取不同提及的局部上下 文特征, 具体包括: 给定一个包含N个文本标记的药物不良事件文档 首先在药 物提及开头和结尾插入固定标记<s>和</s>来标记药物提及位置, 然后将对应的候选不良 事件提及采用悬浮标记<o>和</o>方式拼接在文本后面, 其中<o>和</o>与对应的不良事件 提及为同一位置编 码, 接着将文本标记和插入的悬浮标记的组合序列提供给BERT 预训练模 型, 以获得药物 提及标记局部上下文表 示es和不良事件提及标记局部上下文表 示eo, 将es和 eo拼接在一起作为对应药物提及与不良事件提及对嵌入表示 其中 M表示样本中药物提及与不良事件提及组成的最大提及对数, 最后利用BERT预训练模型获 得注意力表示 其中A是BERT预训练模型最后一个Encoder层中注意力头的平均 值, 利用来自BERT预训练模型的注意力矩阵A以及仿射变换来获得药物和不良事件的提及 对关系矩阵: 其中, 是Hadamard积, W1是可学习的参数矩阵, H为药物提及与不良事件提及对嵌入表 示, As表示药物提及es对文档所有标记的注意力, 通过平均药物提及最后一个Encoder层中 注意力头的平均值获得, Ao表示不良事件提及eo对文档所有标记的注意力, 通过平均不良事 件提及最后一个Encoder层中注意力头的平均值获得, F(s,o)表示药物和不良事件的提及 对(es,eo)关系矩阵; 所述语义特征融合器用于将局部上下文信 息通过编码模块和U形语义分割网络来融合 提及的全局依赖, 具体包括: 先将包含局部上下文信息的提及对关系矩阵F∈RM×M×D作为D通 道图像, 再结合一个编码模块, 然后利用U 形语义分割网络获取丰富的全局特征, U 形语义分 割网络包含顺序设置的全局特征提取块、 两个带有跳跃连接的上采样块和特征输出层, 从 而获得局部上 下文及全局依赖信息矩阵: Y=U(W2F) 其中, Y∈RM×M×D'表示局部上下文及全局依赖信息矩阵, U∈RM×M×D'表示U形语义分割网 络, W2是可学习的权 重矩阵, 以降低F的维数, 且D'远小于D, W2F表示编码模块; 所述分类器用于通过局部上下文及全局依赖信息矩阵和提及平滑嵌入表示来对药物 不良事件关系进行预测, 具体包括: 先利用文挡中不同位置的提及局部上下文嵌入m, 再利用最大池化的平 滑版本获得同一个提及平 滑嵌入表示Ei:权 利 要 求 书 1/3 页 2 CN 115392256 A 2其中, Ei表示提及ei的平滑嵌入表示, 表示文档中药物或不良事件提及ei总共出现 的次数; 在分别获得药物和不良事件平滑嵌入表示Es和Eo与局部上下文及全局依赖信息矩阵Y 后, 分类器先利用前馈神经网络将Es、 Eo、 Y映射到隐藏表示z, 然后通 过双线性函 数获得关系 概率, 具体过程如下: zs=tanh(WsEs+Ys,o) zo=tanh(WoEo+Ys,o) P(r|Es,Eo)=σ(zsWrzo+br) 其中, zs是药物隐藏表示, zo是不良事件隐藏表示, P是关系概率, Ys,o是矩阵Y中的药物 和不良事件的提及对(es,eo)的局部上下文及全局依赖信息表示, tanh 为非线性激活函数, σ 为双线性 函数, Ws、 Wo、 Wr、 br是可学习的参数矩阵; 所述样本不平衡处理器用于通过引入一种平衡的softmax方法进行训练, 并引 入一个 额外的类别0来处理样本集中类别不平衡问题, 希望目标类别的分数都大于阈值t0, 非目标 类别的分数都小于阈值t0: 其中, L表示目标损失函数, log表示以e为底的对数, e表示常数, ti表示第i个正标签的 概率, tj表示第j个负标签的概率, Ωp os表示药物及 其对应的不良事件提及关系即正标签, Ωneg表示药物及其非对应的不良事 件提及关系即负标签; S2、 数据预处 理, 具体采用以下 方法进行提及统一 化处理: 先将医学文本中的提及进行去停顿词处理, 然后再进行正则化匹配, 将正则化匹配度 高于90%的提及归为同一个提及; S3、 模型训练与参数优化: 使用处理后的数据对抽取模型进行训练, 设计目标优化函数 优化网络参数, 产生 最优抽取模型, 具体包括以下步骤: S31、 将数据集按7: 2: 1比例划分为训练集、 验证集和 测试集; S32、 采用平衡的softmax分类交叉熵损失函数作为优化目标, 目标函数采用与步骤S1 样本不平衡处 理器中计算目标损失函数L相同的公式来实现; S33、 采用随机梯度下降算法优化目标函数, 运用误差反向传播更新网络模型参数; S4、 药物不良事 件关系抽取: S41、 将待抽取医学文本数据预处理, 获得标准化后的样本数据, 并将药物及其非对应 的不良事 件提及关系对类别定义 为0; S42、 对于一个医学样本及其包含的所有药物提及和不良事件提及, 构成一条训练样 本, 在所有药物 提及的前后直接插入<s>和</s>两个固定标记, 将不良事件提及用<o>和</o >表示的悬浮标记的方式拼接在文本后面; S43、 将样本送进BERT预训练模型中, 对于每一对药物和不良事件提及标记对, 分别将权 利 要 求 书 2/3 页 3 CN 115392256 A 3

PDF文档 专利 一种基于语义分割的药物不良事件关系抽取方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义分割的药物不良事件关系抽取方法 第 1 页 专利 一种基于语义分割的药物不良事件关系抽取方法 第 2 页 专利 一种基于语义分割的药物不良事件关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。