(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210056958.7
(22)申请日 2022.01.18
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 肖睿欣 孙庆华 王聪
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 周春丽
(51)Int.Cl.
G16H 10/60(2018.01)
G06F 16/36(2019.01)
G06F 40/284(2020.01)
G06F 40/295(2020.01)
(54)发明名称
一种基于NLP的心血 管疾病病历结构化系统
(57)摘要
本发明公开了一种基于NLP的心血管疾病病
历结构化系统, 包括: 文本格式转换模块, 用于将
用户上传的心血管疾病相关的病历文件, 按不同
格式进行转换后输出为文本文件; 规则抽取模
块, 用于定义文本抽取规则, 对转换的文本文件
进行初步结构化及粗粒度的信息抽取, 并输出对
应的结构化文本; 命名实体识别模块, 基于深度
学习, 结合自然语 言处理方法训练预训练语言模
型, 使用预训练语 言模型对结构化文本进行序列
标注, 预测结构化文本中各个字符实体标签的概
率, 根据所述概率确定实体的起止位置和类别信
息, 以此抽取细粒度心血管疾病相关的医学实体
信息, 将预测得到的实体位置及类别信息存储于
最终的结构化文 件中。
权利要求书3页 说明书8页 附图5页
CN 114530223 A
2022.05.24
CN 114530223 A
1.一种基于N LP的心血 管疾病病历结构化系统, 其特 征在于, 包括:
文本格式转换模块, 用于将用户上传的心血管疾病相关的病历文件, 按不同格式进行
转换后输出为文本文件;
规则抽取模块, 用于定义文本抽取规则, 对转换的文本文件进行初步结构化及粗粒度
的信息抽取, 并输出对应的结构化文本;
命名实体识别模块, 基于深度 学习, 结合自然语言处理方法训练预训练语言模型, 使用
预训练语言模型对结构化文本进行序列标注, 预测结构化文本中各个字符实体标签的概
率, 根据所述概率确定实体的起止位置和类别信息, 以此抽取细粒度心血管疾病相关的医
学实体信息, 将预测得到的实体位置及类别 信息存储于最终的结构化文件中。
2.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 文
本格式转换模块对用户指 定的病历文件先进 行格式判别, 并将文件的格式转换为后续可结
构化的文本格式, 具体为:
若用户指定的文件为Wor d文件, 则利用Python中的第三方工具库docx2txt, 对Word文
件进行文字读取, 将文件转换为Python中可操作的字符串, 对提取得到的字符串进行预处
理后保存至TXT 文件中;
若用户指定文件为PDF文件, 需让用户指定PDF文件内容为文字版或是图片版; 若为文
字版, 则使用第三方工具库PDFPlumber对文字进行提取; 若为图片版, 则先使用第三方工具
库Fitz将PDF文件每一页提取为PNG格式的图片, 再调用OCR工具库Tesseract对图片中的文
字进行提取, 对提取 得到的字符串 进行预处理后保存至TXT 文件中;
所述预处 理包括去除多余空格、 换 行符及特殊符号。
3.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 抽
取出的结构化信息包括患者个人信息、 现病史、 各类诊断信息、 治疗过程、 各项生化指标等,
将结构化信息通过字典的格式存 储于json文件。
4.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 命
名实体识别模块抽取初步结构化及粗粒度的信息, 具体过程 为:
基于在医学领域预训练后的双向自注意力语义编码器, 在经过数据增强的训练集Dda上
结合医学领域词向量进行词汇增强调整训练, 得到最后的NER抽取模型, 使用最后的NER抽
取模型对规则抽取模块输出的结构化文本进 行编码, 将编 码得到的特征向量经过线性分类
器, 将得到的分类层向量输入到条件随机场(CRF)中计算每个字符的标签转移 概率, 最后通
过Viterbi算法进行解码得到最终每个字符 的标签信息, 基于标签信息得到实体起止位置
和实体类别。
5.根据权利要4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 词汇
增强微调训练包括以下步骤:
S1、 构建字符 ‑词汇对序列: 即对于输入的中文句子sc={c1,c2,...,cn}, 对句子每个字
符cn利用医学领域词向量的词典匹配出包含该字符的潜在词汇, 将该字符和匹配得到的词
汇组成词汇对scw, 表示为:
scw={(c1,ws1),(c2,ws2),...,(cn,wsn)}
其中, cn表示句子中第n个字符, wsn表示包含该字符的词汇组成的集 合;
S2、 设计词汇适配层结构: 对于句子第i个位置的字符, 将医学领域双向自注意力语义权 利 要 求 书 1/3 页
2
CN 114530223 A
2编码器某一自注意力变换层编 码的字符特征与该字符对应词汇的词向量集合, 使用非线性
变换与字符特征向量进行维度对齐后, 利用注意力机制将集合中每个词向量进行融合, 最
后将字符特征与融合后的词向量相加并进行归一化, 得到最后词汇适配层的特征输出, 表
示为,
其中,
为第i个位置的字符特征,
为第i个位置字符对应词汇的词
向量集合,
为该词向量 集合的第m个单词的词向量,
为最后词汇适配层的特 征输出;
S3、 将词汇适配层输出的结合特征注入到 医学领域双向自注意力语义编码器第k和第k
+1层自注意力变换层之间。
6.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 采
用条件随机场计算每 个字符的标签转移概 率, 具体过程 为:
首先将NER抽取模型编码输出的n维特征向量H={h1,h2,...,hn}, 经过一个线性分类
层, 得到的分类层输出向量O, 如下公式所示;
O=WOH+bO
其中, hn为特征向量H的第n维向量, WO为线性分类层的变换矩阵, bO为线性分类层的偏
差;
然后使用CRF进行转移概率计算, 即对于一个需进行标注的序列y={y1,y2,...,yn}, 其
概率如下公式计算:
其中, yn表示待标注序列 y的第n个字符, T表示CRF的转移分数矩阵, y ′表示所有可能的
标注序列,
表示概率最大标注的序列在第i个位置的分类层向量,
表示可能的序列
在第i个位置的分类层向量,
表示概率最大标注的序列在 从第i‑1到第i个位置的转移
概率,
表示可能的序列在从第i ‑1到第i个位置的转移概 率;
最后使用Viterbi 算法进行解码得到该 标注序列的标签。
7.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 命
名实体识别模块中 医学领域双向 自注意力语义编码器的获取, 具体过程 为:
首先收集医学 领域的医学文本, 进行文本预处 理, 得到专有语料Wmedical;
然后将专有语料Wmedical的文本切割至适配于预训练语言模型训练的输入长度;
对切割后的文本使用整词遮蔽, 即对在预训练词表中的中文词汇或词级别字符, 随机
进行遮蔽处 理, 经整词遮蔽处 理后得到遮蔽语言模型 预训练数据集;
最后在预训练数据集上对BERT模型进行预训练, 遮蔽语言模型任务的目标是通过语句
的上下文信息预测使用被遮蔽处理的词汇或字 符, 从而使得原始的BERT模型学习到文本的
上下文双向信息, 通过 上述预训练得到 Med‑BERT模型。
8.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 医
学领域词向量的获取, 具体过程 为:权 利 要 求 书 2/3 页
3
CN 114530223 A
3
专利 一种基于NLP的心血管疾病病历结构化系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:51:47上传分享