全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210989050.1 (22)申请日 2022.08.17 (71)申请人 苏州大学 地址 215000 江苏省苏州市吴中区石湖西 路188号 (72)发明人 卢禹炜 杨洋 严文颖  (74)专利代理 机构 苏州市中南伟业知识产权代 理事务所(普通 合伙) 32257 专利代理师 王广浩 (51)Int.Cl. G06F 40/295(2020.01) G06K 9/62(2022.01) G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多任务学习的生物医学实体抽取方法 (57)摘要 本发明公开了一种基于多任务学习的生物 医学实体抽取方法, 本发明基于多任务学习的生 物医学实体抽取方法通过多任务实体抽取模型 进行实体抽取, 将第一预训练语言模 型作为共享 的编码层, 来学习各个子任务的共同语义特征, 并将学习的语义特征共享给各个子任务, 以加强 模型之间的联系并减少对训练数据量的依赖, 并 通过各个交互式指针网络解码层学习各个子任 务特有的特征信息, 多任务实体抽取模 型可以并 行地从文本中抽取多种类别的实体, 从而可以更 快地、 准确地完成任务。 权利要求书1页 说明书9页 附图2页 CN 115238700 A 2022.10.25 CN 115238700 A 1.基于多任务学习的生物医学实体抽取 方法, 其特 征在于, 包括以下步骤: S1、 获取一段医学文本; S2、 将医学文本输入多任务实体抽取模型, 利用多任务实体抽取模型从医学文本中抽 取实体; 其中, 所述多任务实体抽取模型包括第 一预训练语言模型和多个交互式指针网络解码 层, 每个交互式指针网络解码层对应一个子任务, 每个子任务对应目标实体类别的实体抽 取, 所述交互式指针网络解码层包括中间层、 起始层、 线性交互层和结束层; 医学文本输入 所述第一预训练语言模型得到文本表征, 所述中间层对文本表征进行特征提取和降维后输 入所述起始层, 所述起始层得到实体开始表征, 所述实体开始表征输入所述线性交互层得 到交互表征, 交互表征与文本表征进行求和并输入所述结束层得到实体结束表征, 将实体 开始表征和实体结束表征进行解码得到实体的开始 边界和结束边界, 完成从文本中抽取实 体。 2.如权利要求1所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 所述多 任务实体抽取模 型包括八个交互式指针网络解码层, 分别对应基因/蛋白质、 化合物/药物、 疾病、 DNA、 RNA、 细胞类型、 细胞系 、 物种共八种实体 类别的实体抽取。 3.如权利要求1所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 所述第 一预训练语言模型采用Bi oBERT。 4.如权利要求1所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 还包括 以下步骤: S3、 为不同的实体 类别分别构建对应的医学词典, 每 个实体由ID标识; S4、 构建多任务实体标准化模型, 将抽取的实体输入所述多任务实体标准化模型, 并输 出得到实体密集表征; S5、 计算出实体稀疏表征, 将实体密集表征与实体稀疏表征进行加权求和得到实体表 征, 分别计算出抽取 的实体和医学词典中所有实体的实体表征, 通过内积计算它们之间的 相似度, 从而得到抽取的实体在医学词典中的ID。 5.如权利要求4所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 所述多 任务实体标准化模型包括第二预训练语言模型和多个Bert层, 每个Bert层对应一个子任 务, 每个子任务对应目标类别的实体标准化; 将抽取 的实体输入所述第二预训练语言模型 得到实体上下文表征, 并根据 实体类别将实体上下文表征输入到对应的Bert层, Bert层输 出得到实体密集表征。 6.如权利要求5所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 所述第 二预训练语言模型采用Sap BERT。 7.如权利要求4所述的基于多任务学习的生物医学实体抽取方法, 其特征在于, 步骤S5 中, 利用TF ‑IDF算法计算出实体稀疏表征。 8.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求 1‑7中任意一项 所述方法的 步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现权利要求1 ‑7任意一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 115238700 A 2基于多任务学习的生物医学实体抽取方 法 技术领域 [0001]本发明涉及信息抽取技术领域, 特别涉及 一种基于多任务学习的生物医学实体抽 取方法。 背景技术 [0002]当前生物医学领域的相关研究资料在不断增加, PubMed已有3400多万的医学文献 引用。 这些医学文献包含着海量的知识, 记录着最新的医学研究进展, 但是医学文 献以文本 的形式存储知识, 研究人员 在查阅资料时会花费较多的时间。 当前开始逐渐使用医学知识 图谱来组织和管理知识, 研究人员可以方便地检索内容, 也可以基于医学知识图谱开发药 物发现、 知识问答及数据分析平台等应用。 但是当前构建医学知识图谱由医学相关的专家 手动地从文本资料中抽取知识, 可以保证数据内容的准确 性, 但是会花费较高的人工成本 和时间成本, 并且需要后期维护和更新数据内容。 因此自动地从文本资料中抽取结构化知 识构建医学知识图谱是当前的重要研究方向。 [0003]实体抽取(Entity  Extraction,EE)的目标是从医学文本中正确地抽取出医学实 体。 早期方法主要 是基于词典和规则, 根据具体任务要求来人工地构建, 此类方法泛化性比 较差。 近年来深度学习方法被广泛应用, Kocaman等人基于双向长短期记忆网络 ‑卷积神经 网络(BiLSTM ‑CNN)构建混合模 型用于医学实体抽取任务。 该方法使用预训练的词嵌入来获 取词表征, 但是词表征不包含上下文信息。 Xu等人使用预训练语言模型BERT从文本中提取 上下文语义特征, 然后基于BERT和BiLSTM ‑CRF构建混合模型完成生物 医学实体抽取任务。 上述基于深度学习的实体抽取方法采用单任务学习方式训练模型, 并没有关注各个任务之 间的关联性。 [0004]在生物医学领域中, 实体名称普遍存在同义词的情况, 例如Cancer的同义词有 Tumor、 Neoplasm、 Malignancy等等。 实体标准化目标是将表示同一实体的不同实体名称建 立起映射关系, 此任务也被称为实体链接、 实体消岐等。 在构建医学知识图谱时一般会从多 个知识来源中获取知识, 可能会使用不同的名称来表示同一个实体。 因此实体标准化是一 个重要的任务, 这可以有效地减少医学知识图谱的冗余性和歧义性。 早期主要是基于规则 和词典的方法, 根据词形变换规则、 词典映射完成任务, 此类方法的精确率较高但是召回率 较低。 当前逐渐使用深度学习方法, 使用预训练语言模型得到实体名称的实体表征, 然后通 过计算实体表征之间的相似度来完成任务。 Sung等人提出了BioSyn模型, 使用BioBERT对实 体名称进行编码得到表征, 称为密集表征。 BioSyn除了使用密集表征, 额外引入了实体的字 形特征, 使用词频 ‑逆向文件频率(Term  Frequency –Inverse Document  Frequency, TF ‑ IDF)计算得到稀疏表征。 将密集表征与稀疏表征进行加权求和得到实体表征。 Liu等人构建 了专用于实体标准化的预训练语 言模型SapBERT, 使 得实体表征额外包含同义词信息。 上述 基于深度学习的实体标准化模型同样采用单任务学习方式训练模型, 忽略子任务之 间的关 联性。 因此, 存在准确率低的问题。说 明 书 1/9 页 3 CN 115238700 A 3

PDF文档 专利 基于多任务学习的生物医学实体抽取方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多任务学习的生物医学实体抽取方法 第 1 页 专利 基于多任务学习的生物医学实体抽取方法 第 2 页 专利 基于多任务学习的生物医学实体抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。