(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151422.X (22)申请日 2022.09.20 (71)申请人 徐州工业职业 技术学院 地址 221140 江苏省徐州市 鼓楼区襄王南 路1号 (72)发明人 王侠  (74)专利代理 机构 徐州卓冠知识产权代理事务 所(普通合伙) 32668 专利代理师 李先林 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G16H 70/20(2018.01) (54)发明名称 一种基于分类法的中 医知识图谱构建方法 (57)摘要 本发明涉及技术领域, 尤其涉及一种基于分 类法的中医知识图谱构建方法, 解决了现有技术 中在中医诊疗理论中, 概念之间存在多对多的关 系, 如证候和症 状, 表现形式应为<症状集, 关系, 证候集>, 因此TCMLS无法完整展现中医诊疗理论 的问题。 一种基于分类 法的中医知识图谱构建方 法, 包括步骤1中构建以下数据结构: 语料库: 从 中国知网CNKI下载中医文献, 从中抽取病案, 取 75%作为训练集, 25%作为测试集, 分别用于训 练模型参数和测试模型效果。 本发 明得到所述目 标中医的个性化医案知识图谱。 这样, 从医案入 手, 借助中医基础理论知识图库, 构建个性化医 案知识图谱, 该图谱便于查询, 且可以直接反映 出该医生的行医风格和临床就诊 思路。 权利要求书1页 说明书3页 CN 115495588 A 2022.12.20 CN 115495588 A 1.一种基于分类法的中 医知识图谱构建方法, 其特 征在于, 具体步骤 包括: 步骤1, 构 建初始化文献病案语料库, 对病案进行分句、 分词, 并对病案中的 “理‑法‑方‑ 药”实体进行 标记; 步骤2, 通过双向LSTM对实体进行预测, 通过深度学习模型从中医文献病案自动抽取实 体; 步骤3, 将同一病案 中出现的同类实体进行聚类形成实体组, 然后根据 预定义的实体之 间的关系形成三元组, 构建知识图谱。 2.根据权利要求1所述的一种基于分类法的中医知识图谱构建方法法, 其特征在于, 步 骤1中构建以下数据结构: 语料库: 从中 国知网CNKI下载中医文 献, 从中抽取病案, 取75%作 为训练集, 25%作为测试集, 分别用于训练模 型参数和测试模型效果; 训练语料库中对 “理‑ 法‑方‑药”实体进行标记, 使用 “中药‑med”、“方剂‑pres”、“治法‑treat”、“证候‑syn”、“症 状‑sym”一一对应的标记方法, 其余不相关的文本使用 “O”标记; 词嵌入矩阵: 用one ‑hot向 量对分词后的语料库进行词嵌入表示, 构建词嵌入矩阵, 行为词数量, 列为词嵌入维度。 3.根据权利要求1所述的一种基于分类法的中医知识图谱构建方法, 其特征在于, 根据 建立的本体层逻辑关系填充数据, 实现目标中医的医案知识图谱G的初步构建; 其中, 构建 的医案知 识图谱G=<v,e  style="box ‑sizing:inherit; margin:0px; pa dding:0px; li st‑ style:none; border:n one; ">, V表示节点 集, 节点集即实体集, E表示关系集。 4.根据权利要求1所述的一种基于分类法的中医知识图谱构建方法, 其特征在于, 所述 将路径集合C中的所有路径, 添加到医案知识图谱G中, 得到所述目标中医的个性化医案知 识图谱包括: A1, 初始化G中的关系权重; A2, 从路径 集合C中选取路径p, 判断p中的每个节 点 是否存在于 G中, 对在G中未出现过的新节点, 则 在G中新建所述未出现过的新节 点; A3, 判断 p中的每个关系是否存在于G中, 对在G中未出现过的新关系, 则在G中新建所述未出现过的 新关系, 并为新建的关系赋初始权重值; 对存在于G中的已有关系r, 则将r的权重加1/m, 其 中, m为路径的长度。 5.根据权利要求1所述的一种基于分类法的中医知识图谱构建方法, 其特征在于, 提取 模块, 用于对医案知识图谱G按照类别间节点对进行遍历, 提取节点对, 以其中一个节点作 为路径的出发节点S, 另一个节点作为路径的终止节点E, 在预先构建的中医基础理论知识 图库提取出发节点为S、 终止节点为E的路径p, 组成路径集合C, 其中, 节点对中的两个节点 属于不同的类别。 6.根据权利要求1所述的一种基于分类法的中医知识图谱构建方法, 其特征在于, 提取 模块, 用于对医案知识图谱G按照类别间节点对进行遍历, 提取节点对, 以其中一个节点作 为路径的出发节点S, 另一个节点作为路径的终止节点E, 在预先构建的中医基础理论知识 图库提取出发节点为S、 终止节点为E的路径p, 组成路径集合C, 其中, 节点对中的两个节点 属于不同的类别。权 利 要 求 书 1/1 页 2 CN 115495588 A 2一种基于分类法的中医知识图谱构建 方法 技术领域 [0001]本发明涉及食品技 术领域, 尤其涉及一种基于分类法的中 医知识图谱构建方法。 背景技术 [0002]知识图谱是以 “语义网络 ”为骨架构建起来的巨型、 网络化的知识系统, 旨在描述 客观世界的概念、 实体、 事件及其之间的关系。 其中, 概念是指人们在认识世界过程中形成 对客观事物的概念化表 示, 如人、 动物、 组织机构等。 实体是客观世界中的具体事物, 如篮球 运动员姚明、 互联网公司腾讯等。 事件 是客观事件的活动, 如地震、 买卖 行为等。 关系描述概 念、 实体、 事件之间客观存在的关联关系, 如运动员和篮球运动员之 间的关系是概念和子概 念的关系等。 谷歌于2012年5月推出谷歌知识图谱, 并利用其在搜索引擎中增强搜索结果, 标志着大规模知识图谱在互联网语义搜索中的成功应用。 [0003]“中医药学语言系统(TCMLS) ”主要基于已有结构化数据进行知识图谱的构建, 而 中医文献、 书籍等知识载体均为 非结构化文本, TCMLS无法利用自由文本(叙述性语 言)进行 知识图谱的自动 构建和扩充; TCMLS形成的知识图谱表现形式为<实体, 关系, 实体>, 而在中 医诊疗理论中, 概念之间存在多对多的关系, 如证候和症状, 表现形式应为<症状集, 关系, 证候集>, 因此TC MLS无法完整 展现中医诊疗理论。 发明内容 [0004]本发明的目的是提供一种基于分类法的中医知识图谱构建方法, 解决了现有技术 中在中医诊疗理论中, 概念之间存在 多对多的关系, 如证候和症状, 表现形式应为<症状集, 关系, 证候 集>, 因此TC MLS无法完整 展现中医诊疗理论的问题。 [0005]为了实现上述目的, 本发明采用了如下技 术方案: [0006]一种基于分类法的中 医知识图谱构建方法, 具体步骤 包括: [0007]步骤1, 构建初始化文献病案语料库, 对病案进行分句、 分词, 并对病案中的 “理‑ 法‑方‑药”实体进行 标记; [0008]步骤2, 通过双向LSTM对实体进行预测, 通过深度学习模型从中医文献病案自动抽 取实体; [0009]步骤3, 将同一病案中出现的同类实体进行聚类形成实体 组, 然后根据预定义的实 体之间的关系形成三元组, 构建知识图谱。 [0010]优选的, 步骤1中构建以下数据结构: 语料库: 从中国知网CNKI下载中医文献, 从中 抽取病案, 取75%作为训练集, 25%作为测试集, 分别用于训练模型参数和测试模型效果; 训练语料库中对 “理‑法‑方‑药”实体进行标记, 使用 “中药‑med”、“方剂‑pres”、“治法‑ treat”、“证候‑syn”、“症状‑sym”一一对应的标记方法, 其余不相关的文本使用 “O”标记; 词 嵌入矩阵: 用one ‑hot向量对分词后的语料库进行词嵌入表示, 构建词嵌入矩阵, 行为词数 量, 列为词嵌入维度。 [0011]优选的, 根据建立的本体层逻辑关系填充数据, 实现目标中医的医案知识图谱G的说 明 书 1/3 页 3 CN 115495588 A 3

.PDF文档 专利 一种基于分类法的中医知识图谱构建方法

安全报告 > 其他 > 文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分类法的中医知识图谱构建方法 第 1 页 专利 一种基于分类法的中医知识图谱构建方法 第 2 页 专利 一种基于分类法的中医知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:16上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。