(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210045975.0
(22)申请日 2022.01.17
(65)同一申请的已公布的文献号
申请公布号 CN 114064938 A
(43)申请公布日 2022.02.18
(73)专利权人 中国人民解 放军总医院
地址 100853 北京市海淀区复兴 路28号
(72)发明人 李宗任 钟琴
(74)专利代理 机构 北京志霖恒远知识产权代理
事务所(普通 合伙) 11435
代理人 郭栋梁
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/295(2020.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)(56)对比文件
CN 113535984 A,2021.10.2 2
CN 113807079 A,2021.12.17
CN 111428036 A,2020.07.17
CN 110134772 A,2019.08.16
CN 113486667 A,2021.10.08
CN 110059320 A,2019.07.26
CN 112818676 A,2021.0 5.18
CN 112860904 A,2021.0 5.28
WO 2021190236 A1,2021.09.3 0
US 20212 24651 A1,2021.07.2 2
钟华帅.基 于深度学习的实体和关系联合抽
取模型研究与应用. 《中国优秀博硕士学位 论文
全文数据库 (硕士) 信息科技 辑》 .2021,第I138-
2873页.
王东.基于深度学习的实体关系抽取方法研
究. 《中国优秀博硕士学位 论文全文数据库》
.2021,第I138-16 6页.
审查员 王婷婷
(54)发明名称
医学文献的关系抽取方法、 装置、 电子设备
及存储介质
(57)摘要
本申请公开了一种医学文献的关系抽取方
法、 装置、 电子设备及存储介质。 其中, 医学文献
的关系抽取方法, 包括: 获得数据集, 并基于 数据
集预训练Bert模型, 数据集包括外部医学文献数
据库中的医学文献, 医学文献预先标注实体,
Bert模型用于实体监督; 构建关系抽取模型, 关
系抽取模型包括头实体抽取模块、 关联模块以及
尾实体/关系抽取模块, 头实体抽取模块以及关
联模块的编码器基于实体监督的Bert模型进行
微调; 获得渐进式的权重损失函数, 以利用关系
抽取模型对医学文献进行关系抽取。 本申请实施
例, 可以提升医学文献的关系抽取效果, 提升了
后续得到临床知识图谱的专业 性。
权利要求书2页 说明书8页 附图2页
CN 114064938 B
2022.04.22
CN 114064938 B
1.一种医学文献的关系抽取 方法, 其特 征在于, 包括:
获得数据集, 并基于所述数据集预训练B ert模型, 其中, 所述数据集包括外部医学文献
数据库中的医学文献, 所述医学文献 预先标注实体, 所述Ber t模型用于实体监 督;
构建关系抽取模型, 所述关系抽取模型包括头实体抽取模块、 关联模块以及尾实体/关
系抽取模块, 所述头实体抽取模块以及关联模块的编码 器基于所述 实体监督的Bert模型进
行微调, 其中, 在所述关联模块中, 所述编 码器的向量表示和头实体抽取模块的向量表示的
头尾位置to ken的平均值以多头注意力机制来结合;
获得渐进式的权重损 失函数, 以利用所述关系抽取模型对医学文献进行关系抽取, 其
中, 所述渐进式的权 重损失函数为:
。
2.根据权利要求1所述的医学文献的关系抽取方法, 其特征在于, 所述关系抽取模型中
采用指针网络作为解码 器, 其中, 所述解码 器为每个语句中的位置 分配一个二进制标记, 所
述二进制标记指示所述语句中的位置是否正确, 并提供每个位置的置信度以检测实体的开
始和结束位置, 所述关系抽取模型的损失函数为:
,
其中,N表示语句的长度,
表示主语的第i个token的label, 如果第i个t oken是真实的
位置, 则
, 否则为
表示第i个to ken的置信度。
3.根据权利要求1所述的医学文献的关系抽取方法, 其特征在于, 所述尾实体/关系抽
取模块由双指针网络构成, 所述双指针网络的数量由关系的数量决定 。
4.根据权利要求3所述的医学文献的关系抽取方法, 其特征在于, 所述尾实体/关系抽
取模块的损失函数为:
, 其中,N表示语句的长度,
表示宾语中第i个to ken的label, 如果第i个to ken是真实的位置则
, 否则为
表示关系的数量。
5.一种医学文献的关系抽取装置, 其特 征在于, 包括:
获取模块, 用于获得数据集, 并基于所述数据集预训练Bert模型, 其中, 所述数据集包
括外部医学文献数据库中的医学文献, 所述医学文献预先标注实体, 所述Bert模型用于实
体监督;
构建模块, 用于构建关系抽取模型, 所述关系抽取模型包括头实体抽取模块、 关联模块
以及尾实体/关系抽取模块, 所述头实体抽取模块以及关联模块的编码器基于所述实体监
督的Bert模 型进行微调, 其中, 在所述关联模块中, 所述编码 器的向量表 示和头实体抽取模
块的向量表示的头尾位置to ken的平均值以多头注意力机制来结合;
关系抽取模块, 用于获得渐进式的权重损 失函数, 以利用所述关系抽取模型对医学文权 利 要 求 书 1/2 页
2
CN 114064938 B
2献进行关系抽取, 其中, 所述渐进式的权 重损失函数为:
。
6.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器以及存储在存储器上
并可在处理器上运行的计算机程序, 所述处理器用于执行所述程序时实现根据权利要求 1‑
4任一项所述的医学文献的关系抽取 方法。
7.一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序用于实现根据
权利要求1 ‑4任一项所述的医学文献的关系抽取 方法。权 利 要 求 书 2/2 页
3
CN 114064938 B
3
专利 医学文献的关系抽取方法、装置、电子设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:56:17上传分享