专利一种基于NLP的心血管疾病病历结构化系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210056958.7 (22)申请日 2022.01.18 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人肖睿欣　孙庆华　王聪　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师周春丽 (51)Int.Cl. G16H 10/60(2018.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/295(2020.01) (54)发明名称一种基于NLP的心血管疾病病历结构化系统 (57)摘要本发明公开了一种基于NLP的心血管疾病病历结构化系统，包括：文本格式转换模块，用于将用户上传的心血管疾病相关的病历文件，按不同格式进行转换后输出为文本文件；规则抽取模块，用于定义文本抽取规则，对转换的文本文件进行初步结构化及粗粒度的信息抽取，并输出对应的结构化文本；命名实体识别模块，基于深度学习，结合自然语言处理方法训练预训练语言模型，使用预训练语言模型对结构化文本进行序列标注，预测结构化文本中各个字符实体标签的概率，根据所述概率确定实体的起止位置和类别信息，以此抽取细粒度心血管疾病相关的医学实体信息，将预测得到的实体位置及类别信息存储于最终的结构化文件中。权利要求书3页说明书8页附图5页 CN 114530223 A 2022.05.24 CN 114530223 A 1.一种基于N LP的心血管疾病病历结构化系统，其特征在于，包括：文本格式转换模块，用于将用户上传的心血管疾病相关的病历文件，按不同格式进行转换后输出为文本文件；规则抽取模块，用于定义文本抽取规则，对转换的文本文件进行初步结构化及粗粒度的信息抽取，并输出对应的结构化文本；命名实体识别模块，基于深度学习，结合自然语言处理方法训练预训练语言模型，使用预训练语言模型对结构化文本进行序列标注，预测结构化文本中各个字符实体标签的概率，根据所述概率确定实体的起止位置和类别信息，以此抽取细粒度心血管疾病相关的医学实体信息，将预测得到的实体位置及类别信息存储于最终的结构化文件中。 2.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，文本格式转换模块对用户指定的病历文件先进行格式判别，并将文件的格式转换为后续可结构化的文本格式，具体为：若用户指定的文件为Wor d文件，则利用Python中的第三方工具库docx2txt，对Word文件进行文字读取，将文件转换为Python中可操作的字符串，对提取得到的字符串进行预处理后保存至TXT 文件中；若用户指定文件为PDF文件，需让用户指定PDF文件内容为文字版或是图片版；若为文字版，则使用第三方工具库PDFPlumber对文字进行提取；若为图片版，则先使用第三方工具库Fitz将PDF文件每一页提取为PNG格式的图片，再调用OCR工具库Tesseract对图片中的文字进行提取，对提取得到的字符串进行预处理后保存至TXT 文件中；所述预处理包括去除多余空格、换行符及特殊符号。 3.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，抽取出的结构化信息包括患者个人信息、现病史、各类诊断信息、治疗过程、各项生化指标等，将结构化信息通过字典的格式存储于json文件。 4.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，命名实体识别模块抽取初步结构化及粗粒度的信息，具体过程为：基于在医学领域预训练后的双向自注意力语义编码器，在经过数据增强的训练集Dda上结合医学领域词向量进行词汇增强调整训练，得到最后的NER抽取模型，使用最后的NER抽取模型对规则抽取模块输出的结构化文本进行编码，将编码得到的特征向量经过线性分类器，将得到的分类层向量输入到条件随机场(CRF)中计算每个字符的标签转移概率，最后通过Viterbi算法进行解码得到最终每个字符的标签信息，基于标签信息得到实体起止位置和实体类别。 5.根据权利要4所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，词汇增强微调训练包括以下步骤： S1、构建字符 ‑词汇对序列：即对于输入的中文句子sc＝{c1,c2,...,cn}，对句子每个字符cn利用医学领域词向量的词典匹配出包含该字符的潜在词汇，将该字符和匹配得到的词汇组成词汇对scw，表示为： scw＝{(c1,ws1),(c2,ws2),...,(cn,wsn)} 其中， cn表示句子中第n个字符， wsn表示包含该字符的词汇组成的集合； S2、设计词汇适配层结构：对于句子第i个位置的字符，将医学领域双向自注意力语义权　利　要　求　书 1/3 页 2 CN 114530223 A 2编码器某一自注意力变换层编码的字符特征与该字符对应词汇的词向量集合，使用非线性变换与字符特征向量进行维度对齐后，利用注意力机制将集合中每个词向量进行融合，最后将字符特征与融合后的词向量相加并进行归一化，得到最后词汇适配层的特征输出，表示为，其中，为第i个位置的字符特征，为第i个位置字符对应词汇的词向量集合，为该词向量集合的第m个单词的词向量，为最后词汇适配层的特征输出； S3、将词汇适配层输出的结合特征注入到医学领域双向自注意力语义编码器第k和第k +1层自注意力变换层之间。 6.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，采用条件随机场计算每个字符的标签转移概率，具体过程为：首先将NER抽取模型编码输出的n维特征向量H＝{h1,h2,...,hn}，经过一个线性分类层，得到的分类层输出向量O，如下公式所示； O＝WOH+bO 其中， hn为特征向量H的第n维向量， WO为线性分类层的变换矩阵， bO为线性分类层的偏差；然后使用CRF进行转移概率计算，即对于一个需进行标注的序列y＝{y1,y2,...,yn}，其概率如下公式计算：其中， yn表示待标注序列 y的第n个字符， T表示CRF的转移分数矩阵， y ′表示所有可能的标注序列，表示概率最大标注的序列在第i个位置的分类层向量，表示可能的序列在第i个位置的分类层向量，表示概率最大标注的序列在从第i‑1到第i个位置的转移概率，表示可能的序列在从第i ‑1到第i个位置的转移概率；最后使用Viterbi 算法进行解码得到该标注序列的标签。 7.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，命名实体识别模块中医学领域双向自注意力语义编码器的获取，具体过程为：首先收集医学领域的医学文本，进行文本预处理，得到专有语料Wmedical；然后将专有语料Wmedical的文本切割至适配于预训练语言模型训练的输入长度；对切割后的文本使用整词遮蔽，即对在预训练词表中的中文词汇或词级别字符，随机进行遮蔽处理，经整词遮蔽处理后得到遮蔽语言模型预训练数据集；最后在预训练数据集上对BERT模型进行预训练，遮蔽语言模型任务的目标是通过语句的上下文信息预测使用被遮蔽处理的词汇或字符，从而使得原始的BERT模型学习到文本的上下文双向信息，通过上述预训练得到 Med‑BERT模型。 8.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统，其特征在于，医学领域词向量的获取，具体过程为：权　利　要　求　书 2/3 页 3 CN 114530223 A 3

专利 一种基于NLP的心血管疾病病历结构化系统

专利一种基于NLP的心血管疾病病历结构化系统