(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211217451.1
(22)申请日 2022.10.04
(71)申请人 河南科技大 学
地址 471000 河南省洛阳市洛龙区开元 大
道263号
(72)发明人 吴庆涛 徐文萱 张明川 王琳
朱军龙 刘牧华
(74)专利代理 机构 洛阳华和知识产权代理事务
所(普通合伙) 4120 3
专利代理师 李征
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 40/126(2020.01)
G06F 40/211(2020.01)G06F 40/242(2020.01)
G06F 40/295(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G16H 50/70(2018.01)
(54)发明名称
一种中医文本实体关系联合抽取方法
(57)摘要
本发明涉及一种中医文本实体关系联合抽
取方法, 属于医疗信息语言处理领域, 所述方法
应用了预训练语言模型、 字词融合编码方式、 图
卷积等利用中医词典等融合中医知识, 进行中医
领域的信息抽取。 以中医医案描述文本为研究对
象, 在于发现文本中主要中医实体及其关系, 提
出融合中医领域知识的中医医案实体关系抽取
方法, 使信息简洁明了, 为中医领域知识图谱的
构建提供基础, 对构建中医信息化的建设具有重
大的意义。
权利要求书1页 说明书7页 附图4页
CN 115510242 A
2022.12.23
CN 115510242 A
1.一种中 医文本实体关系联合抽取 方法, 其特 征在于: 包括以下步骤:
步骤一、 训练中 医预训练语言模型;
步骤二、 对输入的中医医案文档级文本进行预处理并以粒度级分句, 先提取粗粒度信
息, 再对细粒度信息进行提取;
步骤三、 细粒度信 息提取时, 对细粒度的文本进行字词融合编码, 所述字词融合编码在
编码器中进行; 然后构建预测图;
步骤四、 利用图卷积进行实体关系的识别预测, 获得实体关系分类。
2.根据权利要求1所述的一种中医文本实体关系联合抽取方法, 其特征在于: 步骤一
中, 所述中医预训练语言模型为基于NEZHA的中医预训练语言模型TcmNEZHA, 其构建方法
为:
S1、 构建中医语料库: 根据中医药不同类别划分进行语料的分类整理, 爬取或从书籍中
录入各类中医相关文献而后批量处理规律性较强的噪音, 去除语料中夹杂的语气词, 最后
在利用现有工具 标注数据过程中加入人工监 督进行查证, 构建出基础的中 医语料库;
S2、 利用原始的中文预训练语言模型NEZHA的代码在S1构建的所述中医语料库上进行
二次预训练, 得到包 含中医知识的中 医预训练语言模型TcmNEZHA。
3.根据权利要求1所述的一种中医文本实体关系联合抽取方法, 其特征在于: 步骤二
中, 中医医案文档级文本的各项关键信息按照抽取粒度分为粗粒度信息和细粒度信息, 整
条文档中以关键词为单位的段落 都属于可通过规则模板直接进行提取的粗粒度信息, 每个
粗粒度信息又包 含众多细粒度信息;
针对粗粒度信息、 中医医案文档的行文结构及特点构造中医医案信息提取规则集, 并
利用所述规则集对各部分内容进行提取; 针对细粒度的中医医案各类信息, 提出三元组抽
取模型, 将非结构化描述文本表示 为多个实体关系三元组的形式。
4.根据权利要求1所述的一种中医文本实体关系联合抽取方法, 其特征在于: 步骤三
中, 将需要进行细粒度信息抽取 的粗粒度信息作为新的输入语句进行细粒度划分, 将语句
输入训练好的中医预训练语言模型进 行字级编 码, 再将语句融合中医词典信息进 行词级编
码, 然后将字级词级编码进行融合, 确定候选词集, 将所述候选词集两两配对进行关系预
测, 按提取 出的候选词集以及预测的关系构建预测图。
5.根据权利要求1所述的一种中医文本实体关系联合抽取方法, 其特征在于: 通过图卷
积进行实体关系信息传播, 修 正预测图结果, 获得最终 实体关系分类。
6.根据权利要求1 ‑5任意一种所述的中医文本实体关系联合抽取方法在中医知识图谱
构建方面的应用。权 利 要 求 书 1/1 页
2
CN 115510242 A
2一种中医文本实体关系联合抽取方 法
技术领域
[0001]本发明涉及医疗自然语言处理技术领域, 具体涉及一种中医文本实体关系联合抽
取方法。
背景技术
[0002]中医是世代中国人民经过上千年的不断实践进而总结归纳出的一套完整的医学
理论体系, 是历代中国人民的智慧结 晶。 在中医这个完全独立于西方医学体系和结构的领
域, 中医的各类名老中医医案、 医生手写病历、 电子病历及中医药网站 等包含海量潜在的中
医知识。 作为挖掘中医辨证规律、 探索病因病机的重要基础, 有效的信息抽取是重中之重。
中医医案是没有统一标注语料及标注规范, 无法被计算机直接挖掘与处理的长段且无序的
非结构化文本, 其中含杂了病人的疾病、 症状、 证候、 处方及个人信息等, 如何从这些文本数
据中挖掘有意 义的实体关系是当前信息抽取 领域研究的重要内容。
[0003]信息抽取一般包括三个方面的任务, 分别是: 实体抽 取、 关系抽取和事件抽取, 传
统的实体识别方法多为基于规则、 词典及在线知识库等的方法, 但是传统的实体识别方法
大多还需要借助实体词典等对候选实体进一步确认, 当词典 内容不够完备或是基于特定领
域的规则时, 实体识别的正确 率及召回率就无法保证。 中医文本数据中实体相互之间存在
着一定的关系, 实体关系正是医疗知识的主要体现。 而关系抽取作为信息抽取最重要的子
任务之一, 早期运用像特征工程、 核函数、 图模 型等抽取方法, 并取得了一些阶段性 成果, 随
着近些年深度学习的崛起, 神经网络模型和预训练模型在此方面带来更大进展。 在经典的
方法中, 一般是将命名实体识别及关系抽取分别作为两个步骤来进行处理, 但是这种 方法
容易导致忽视子任务之间的联系, 这种方法也称为流水线方法, 通常存在误差传递等问题,
第一步所出现的错误信息大概率也会影响后面抽取任务的准确 性; 不仅如此, 冗余的信息
也会很大程度影响模型的性能。
[0004]因此, 为了解决这些问题, 研究过程中尝试将命名实体识别及关系抽 取这两个任
务融合成一个任务, 采用参数共享的方法或者统一标注方案的方法来实现联合编码, 进一
步进行联合学习, 最大程度利用实体和关系间紧密的交互信息, 同时抽取实体, 并进 行实体
对的关系分类。
[0005]随着国家对于各种促进中医药信息化发展政策的提出, 有效处理数据信息愈加重
要, 因此本发明提出一种融合中医领域知识的中医文本实体关系联合抽取方法来提高从海
量非结构化医学文本中自动获取新的中 医知识的效率及准确性, 是十分有必要的。
发明内容
[0006]针对上述问题, 本发明的目的在于提供一种中医文本实体关系联合抽 取方法, 对
中医领域文档级文本实体和关系进 行同时抽取, 分析出文档中疾病、 症状、 症 候、 治法治则、
方剂、 草药的对应关系, 提取出准确度既高、 可解释性又强的三元组, 为后续完成中医领域
知识图谱的构建 打下基础。说 明 书 1/7 页
3
CN 115510242 A
3
专利 一种中医文本实体关系联合抽取方法
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:37:19上传分享