全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210056958.7 (22)申请日 2022.01.18 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 肖睿欣 孙庆华 王聪  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 周春丽 (51)Int.Cl. G16H 10/60(2018.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/295(2020.01) (54)发明名称 一种基于NLP的心血 管疾病病历结构化系统 (57)摘要 本发明公开了一种基于NLP的心血管疾病病 历结构化系统, 包括: 文本格式转换模块, 用于将 用户上传的心血管疾病相关的病历文件, 按不同 格式进行转换后输出为文本文件; 规则抽取模 块, 用于定义文本抽取规则, 对转换的文本文件 进行初步结构化及粗粒度的信息抽取, 并输出对 应的结构化文本; 命名实体识别模块, 基于深度 学习, 结合自然语 言处理方法训练预训练语言模 型, 使用预训练语 言模型对结构化文本进行序列 标注, 预测结构化文本中各个字符实体标签的概 率, 根据所述概率确定实体的起止位置和类别信 息, 以此抽取细粒度心血管疾病相关的医学实体 信息, 将预测得到的实体位置及类别信息存储于 最终的结构化文 件中。 权利要求书3页 说明书8页 附图5页 CN 114530223 A 2022.05.24 CN 114530223 A 1.一种基于N LP的心血 管疾病病历结构化系统, 其特 征在于, 包括: 文本格式转换模块, 用于将用户上传的心血管疾病相关的病历文件, 按不同格式进行 转换后输出为文本文件; 规则抽取模块, 用于定义文本抽取规则, 对转换的文本文件进行初步结构化及粗粒度 的信息抽取, 并输出对应的结构化文本; 命名实体识别模块, 基于深度 学习, 结合自然语言处理方法训练预训练语言模型, 使用 预训练语言模型对结构化文本进行序列标注, 预测结构化文本中各个字符实体标签的概 率, 根据所述概率确定实体的起止位置和类别信息, 以此抽取细粒度心血管疾病相关的医 学实体信息, 将预测得到的实体位置及类别 信息存储于最终的结构化文件中。 2.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 文 本格式转换模块对用户指 定的病历文件先进 行格式判别, 并将文件的格式转换为后续可结 构化的文本格式, 具体为: 若用户指定的文件为Wor d文件, 则利用Python中的第三方工具库docx2txt, 对Word文 件进行文字读取, 将文件转换为Python中可操作的字符串, 对提取得到的字符串进行预处 理后保存至TXT 文件中; 若用户指定文件为PDF文件, 需让用户指定PDF文件内容为文字版或是图片版; 若为文 字版, 则使用第三方工具库PDFPlumber对文字进行提取; 若为图片版, 则先使用第三方工具 库Fitz将PDF文件每一页提取为PNG格式的图片, 再调用OCR工具库Tesseract对图片中的文 字进行提取, 对提取 得到的字符串 进行预处理后保存至TXT 文件中; 所述预处 理包括去除多余空格、 换 行符及特殊符号。 3.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 抽 取出的结构化信息包括患者个人信息、 现病史、 各类诊断信息、 治疗过程、 各项生化指标等, 将结构化信息通过字典的格式存 储于json文件。 4.根据权利要求1所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 命 名实体识别模块抽取初步结构化及粗粒度的信息, 具体过程 为: 基于在医学领域预训练后的双向自注意力语义编码器, 在经过数据增强的训练集Dda上 结合医学领域词向量进行词汇增强调整训练, 得到最后的NER抽取模型, 使用最后的NER抽 取模型对规则抽取模块输出的结构化文本进 行编码, 将编 码得到的特征向量经过线性分类 器, 将得到的分类层向量输入到条件随机场(CRF)中计算每个字符的标签转移 概率, 最后通 过Viterbi算法进行解码得到最终每个字符 的标签信息, 基于标签信息得到实体起止位置 和实体类别。 5.根据权利要4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 词汇 增强微调训练包括以下步骤: S1、 构建字符 ‑词汇对序列: 即对于输入的中文句子sc={c1,c2,...,cn}, 对句子每个字 符cn利用医学领域词向量的词典匹配出包含该字符的潜在词汇, 将该字符和匹配得到的词 汇组成词汇对scw, 表示为: scw={(c1,ws1),(c2,ws2),...,(cn,wsn)} 其中, cn表示句子中第n个字符, wsn表示包含该字符的词汇组成的集 合; S2、 设计词汇适配层结构: 对于句子第i个位置的字符, 将医学领域双向自注意力语义权 利 要 求 书 1/3 页 2 CN 114530223 A 2编码器某一自注意力变换层编 码的字符特征与该字符对应词汇的词向量集合, 使用非线性 变换与字符特征向量进行维度对齐后, 利用注意力机制将集合中每个词向量进行融合, 最 后将字符特征与融合后的词向量相加并进行归一化, 得到最后词汇适配层的特征输出, 表 示为, 其中, 为第i个位置的字符特征, 为第i个位置字符对应词汇的词 向量集合, 为该词向量 集合的第m个单词的词向量, 为最后词汇适配层的特 征输出; S3、 将词汇适配层输出的结合特征注入到 医学领域双向自注意力语义编码器第k和第k +1层自注意力变换层之间。 6.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 采 用条件随机场计算每 个字符的标签转移概 率, 具体过程 为: 首先将NER抽取模型编码输出的n维特征向量H={h1,h2,...,hn}, 经过一个线性分类 层, 得到的分类层输出向量O, 如下公式所示; O=WOH+bO 其中, hn为特征向量H的第n维向量, WO为线性分类层的变换矩阵, bO为线性分类层的偏 差; 然后使用CRF进行转移概率计算, 即对于一个需进行标注的序列y={y1,y2,...,yn}, 其 概率如下公式计算: 其中, yn表示待标注序列 y的第n个字符, T表示CRF的转移分数矩阵, y ′表示所有可能的 标注序列, 表示概率最大标注的序列在第i个位置的分类层向量, 表示可能的序列 在第i个位置的分类层向量, 表示概率最大标注的序列在 从第i‑1到第i个位置的转移 概率, 表示可能的序列在从第i ‑1到第i个位置的转移概 率; 最后使用Viterbi 算法进行解码得到该 标注序列的标签。 7.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 命 名实体识别模块中 医学领域双向 自注意力语义编码器的获取, 具体过程 为: 首先收集医学 领域的医学文本, 进行文本预处 理, 得到专有语料Wmedical; 然后将专有语料Wmedical的文本切割至适配于预训练语言模型训练的输入长度; 对切割后的文本使用整词遮蔽, 即对在预训练词表中的中文词汇或词级别字符, 随机 进行遮蔽处 理, 经整词遮蔽处 理后得到遮蔽语言模型 预训练数据集; 最后在预训练数据集上对BERT模型进行预训练, 遮蔽语言模型任务的目标是通过语句 的上下文信息预测使用被遮蔽处理的词汇或字 符, 从而使得原始的BERT模型学习到文本的 上下文双向信息, 通过 上述预训练得到 Med‑BERT模型。 8.根据权利要求4所述的一种基于NLP的心血管疾病病历结构化系统, 其特征在于, 医 学领域词向量的获取, 具体过程 为:权 利 要 求 书 2/3 页 3 CN 114530223 A 3

.PDF文档 专利 一种基于NLP的心血管疾病病历结构化系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP的心血管疾病病历结构化系统 第 1 页 专利 一种基于NLP的心血管疾病病历结构化系统 第 2 页 专利 一种基于NLP的心血管疾病病历结构化系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。