专利 一种中医文本实体关系联合抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211217451.1 (22)申请日 2022.10.04 (71)申请人河南科技大学地址 471000 河南省洛阳市洛龙区开元大道263号 (72)发明人吴庆涛　徐文萱　张明川　王琳　朱军龙　刘牧华　 (74)专利代理机构洛阳华和知识产权代理事务所(普通合伙) 4120 3 专利代理师李征 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/211(2020.01)G06F 40/242(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 50/70(2018.01) (54)发明名称一种中医文本实体关系联合抽取方法 (57)摘要本发明涉及一种中医文本实体关系联合抽取方法，属于医疗信息语言处理领域，所述方法应用了预训练语言模型、字词融合编码方式、图卷积等利用中医词典等融合中医知识，进行中医领域的信息抽取。以中医医案描述文本为研究对象，在于发现文本中主要中医实体及其关系，提出融合中医领域知识的中医医案实体关系抽取方法，使信息简洁明了，为中医领域知识图谱的构建提供基础，对构建中医信息化的建设具有重大的意义。权利要求书1页说明书7页附图4页 CN 115510242 A 2022.12.23 CN 115510242 A 1.一种中医文本实体关系联合抽取方法，其特征在于：包括以下步骤：步骤一、训练中医预训练语言模型；步骤二、对输入的中医医案文档级文本进行预处理并以粒度级分句，先提取粗粒度信息，再对细粒度信息进行提取；步骤三、细粒度信息提取时，对细粒度的文本进行字词融合编码，所述字词融合编码在编码器中进行；然后构建预测图；步骤四、利用图卷积进行实体关系的识别预测，获得实体关系分类。 2.根据权利要求1所述的一种中医文本实体关系联合抽取方法，其特征在于：步骤一中，所述中医预训练语言模型为基于NEZHA的中医预训练语言模型TcmNEZHA，其构建方法为： S1、构建中医语料库：根据中医药不同类别划分进行语料的分类整理，爬取或从书籍中录入各类中医相关文献而后批量处理规律性较强的噪音，去除语料中夹杂的语气词，最后在利用现有工具标注数据过程中加入人工监督进行查证，构建出基础的中医语料库； S2、利用原始的中文预训练语言模型NEZHA的代码在S1构建的所述中医语料库上进行二次预训练，得到包含中医知识的中医预训练语言模型TcmNEZHA。 3.根据权利要求1所述的一种中医文本实体关系联合抽取方法，其特征在于：步骤二中，中医医案文档级文本的各项关键信息按照抽取粒度分为粗粒度信息和细粒度信息，整条文档中以关键词为单位的段落都属于可通过规则模板直接进行提取的粗粒度信息，每个粗粒度信息又包含众多细粒度信息；针对粗粒度信息、中医医案文档的行文结构及特点构造中医医案信息提取规则集，并利用所述规则集对各部分内容进行提取；针对细粒度的中医医案各类信息，提出三元组抽取模型，将非结构化描述文本表示为多个实体关系三元组的形式。 4.根据权利要求1所述的一种中医文本实体关系联合抽取方法，其特征在于：步骤三中，将需要进行细粒度信息抽取的粗粒度信息作为新的输入语句进行细粒度划分，将语句输入训练好的中医预训练语言模型进行字级编码，再将语句融合中医词典信息进行词级编码，然后将字级词级编码进行融合，确定候选词集，将所述候选词集两两配对进行关系预测，按提取出的候选词集以及预测的关系构建预测图。 5.根据权利要求1所述的一种中医文本实体关系联合抽取方法，其特征在于：通过图卷积进行实体关系信息传播，修正预测图结果，获得最终实体关系分类。 6.根据权利要求1 ‑5任意一种所述的中医文本实体关系联合抽取方法在中医知识图谱构建方面的应用。权　利　要　求　书 1/1 页 2 CN 115510242 A 2一种中医文本实体关系联合抽取方法技术领域 [0001]本发明涉及医疗自然语言处理技术领域，具体涉及一种中医文本实体关系联合抽取方法。背景技术 [0002]中医是世代中国人民经过上千年的不断实践进而总结归纳出的一套完整的医学理论体系，是历代中国人民的智慧结晶。在中医这个完全独立于西方医学体系和结构的领域，中医的各类名老中医医案、医生手写病历、电子病历及中医药网站等包含海量潜在的中医知识。作为挖掘中医辨证规律、探索病因病机的重要基础，有效的信息抽取是重中之重。中医医案是没有统一标注语料及标注规范，无法被计算机直接挖掘与处理的长段且无序的非结构化文本，其中含杂了病人的疾病、症状、证候、处方及个人信息等，如何从这些文本数据中挖掘有意义的实体关系是当前信息抽取领域研究的重要内容。 [0003]信息抽取一般包括三个方面的任务，分别是：实体抽取、关系抽取和事件抽取，传统的实体识别方法多为基于规则、词典及在线知识库等的方法，但是传统的实体识别方法大多还需要借助实体词典等对候选实体进一步确认，当词典内容不够完备或是基于特定领域的规则时，实体识别的正确率及召回率就无法保证。中医文本数据中实体相互之间存在着一定的关系，实体关系正是医疗知识的主要体现。而关系抽取作为信息抽取最重要的子任务之一，早期运用像特征工程、核函数、图模型等抽取方法，并取得了一些阶段性成果，随着近些年深度学习的崛起，神经网络模型和预训练模型在此方面带来更大进展。在经典的方法中，一般是将命名实体识别及关系抽取分别作为两个步骤来进行处理，但是这种方法容易导致忽视子任务之间的联系，这种方法也称为流水线方法，通常存在误差传递等问题，第一步所出现的错误信息大概率也会影响后面抽取任务的准确性；不仅如此，冗余的信息也会很大程度影响模型的性能。 [0004]因此，为了解决这些问题，研究过程中尝试将命名实体识别及关系抽取这两个任务融合成一个任务，采用参数共享的方法或者统一标注方案的方法来实现联合编码，进一步进行联合学习，最大程度利用实体和关系间紧密的交互信息，同时抽取实体，并进行实体对的关系分类。 [0005]随着国家对于各种促进中医药信息化发展政策的提出，有效处理数据信息愈加重要，因此本发明提出一种融合中医领域知识的中医文本实体关系联合抽取方法来提高从海量非结构化医学文本中自动获取新的中医知识的效率及准确性，是十分有必要的。发明内容 [0006]针对上述问题，本发明的目的在于提供一种中医文本实体关系联合抽取方法，对中医领域文档级文本实体和关系进行同时抽取，分析出文档中疾病、症状、症候、治法治则、方剂、草药的对应关系，提取出准确度既高、可解释性又强的三元组，为后续完成中医领域知识图谱的构建打下基础。说　明　书 1/7 页 3 CN 115510242 A 3

专利 一种中医文本实体关系联合抽取方法

专利一种中医文本实体关系联合抽取方法