(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221097680 6.9 (22)申请日 2022.08.15 (71)申请人 中国中医科学院中药研究所 地址 100000 北京市东城区东 直门内南小 街16号 申请人 中国中医科学院中医药信息 研究所 (72)发明人 张华敏 曾子玲 佟琳 鄢青青  陈广坤 张磊 高宏杰 王晶  刘彦明  (74)专利代理 机构 北京市广友专利事务所有限 责任公司 1 1237 专利代理师 张仲波 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01)G06F 16/33(2019.01) G16H 50/70(2018.01) G16H 20/90(2018.01) G16H 70/40(2018.01) G16H 70/60(2018.01) (54)发明名称 一种基于双模式的中医古籍文本实体关系 抽取方法及装置 (57)摘要 本发明涉及自然语 言处理技术领域, 特别是 指一种基于双模式的中医古籍文本实体关系抽 取方法及装置。 方法包括: 获取待抽取的中医古 籍文本; 确定中医古籍文本中各实体的实体类 型; 根据预设的关键词判定规则, 确定中医古籍 文本中的关键词, 其中, 关键词至少包括加药关 键词、 减药关键词、 合方关键词、 禁忌关键词、 强 关联关键词以及文本切片关键词; 基于各实体的 实体类型以及关键词, 在中医古籍文本中抽取实 体组合; 基于实体组合进行实体关系抽取, 并实 例化为关系三元组, 关系三元 组由两个实体和两 个实体之间的实体 关系组成; 将关系三元组以图 数据库的形式存储起来。 采用本发明, 可 以提高 中医古籍文本实体关系抽取的准确性。 权利要求书3页 说明书16页 附图4页 CN 115409036 A 2022.11.29 CN 115409036 A 1.一种基于双模式的中 医古籍文本实体关系抽取 方法, 其特 征在于, 所述方法包括: S1、 获取待抽取的中 医古籍文本; S2、 确定中 医古籍文本中各实体的实体 类型; S3、 根据预设的关键词判定规则, 确定所述中医古籍文本中的关键词; 其中, 所述关键 词至少包括加药关键词、 减药关键词、 合方关键词、 禁忌关键词、 强关联关键词以及文本切 片关键词; S4、 基于所述各实体的实体 类型以及关键词, 在所述中 医古籍文本中抽取实体组合; S5、 基于所述实体组合进行实体关系抽取, 并实例化为关系三元组, 所述关系三元组由 两个实体和两个实体之间的实体关系组成, 所述实体关系包括组合内关系、 组合外关系以 及次要类型实体关系, 其中, 所述组合内关系为实体组合内的实体与同一个实体组合内的 其它实体之 间的关系, 所述组合外 关系包括每个实体组合中的实体与其它实体组合内的实 体之间的关系 、 以及每个实体组合中的实体与组合外的实体之间的关系; S6、 将所述关系三元组以图数据库的形式存 储起来。 2.根据权利要求1所述的方法, 其特征在于, 所述各实体的实体类型包括10类主要类型 实体以及12类次要类型实体; 其中, 所述10类主要类型实体包括症状、 脉象、 舌象、 疾病、 病因病机、 病性要素、 病位要 素、 治则治法、 方剂以及中药; 所述12类次要类型实体包括体质、 医家、 地理名称、 分期、 时间、 年龄、 性别、 预后、 中医 古籍、 成书朝代、 成书年以及中药剂量。 3.根据权利要求2所述的方法, 其特征在于, 所述实体组合包括病因病机组合、 症状群 组合、 治则治法组合、 合用方 组合以及辨证论治组合, 所述合用方组合包括但 不限于病因病 机组合、 症状群组合、 治则治法组合, 所述辨证论治组合包括但不限于病因病机组合、 症状 群组合、 治则治法组合; 所述基于所述各实体的实体类型以及关键词, 在所述中医古籍文本中抽取实体组合, 包括: 基于病因病机、 病性要素以及病位要素三种实体 类型, 抽取病因病机实体组合; 基于症状、 脉象以及舌象三种实体 类型, 抽取症状 群实体组合; 基于治则治法的实体 类型, 抽取治则治法实体组合; 抽取完病因病机实体组合、 症状群实体组合以及治则治法实体组合后, 基于实体类型、 关键词、 抽取到的实体组合以及预设的第一模式, 抽取合用方实体组合; 其中, 所述第一模 式包括: 基础方、 合方或合方依据、 加药或加药依据、 以及减药或减药依据; 抽取完病因病机实体组合、 症状群实体组合、 治则治法实体组合以及合用方实体组合 后, 基于实体类型、 关键词、 抽取到的实体组合以及预设的第二模式, 抽取辨证论治实体组 合; 其中, 所述第二模式包括: 病和/或症、 病因病机、 治则治法以及方和/或药。 4.根据权利要求3所述的方法, 其特征在于, 所述基于预设的合用方实体组合抽取规 则, 基于实体 类型、 关键词以及抽取到的实体组合, 抽取合用方实体组合, 包括: 遍历所述中医古籍文本、 实体列表和所有实体组合, 抽取基础方元素、 合方元素与对应 的合方依据元 素、 加药元素与对应的加药依据元 素、 减药元素与对应的减药依据元 素; 将基础方元素以及合方元素与对应的合方依据元素、 和/或加药元素与对应的加药依权 利 要 求 书 1/3 页 2 CN 115409036 A 2据元素、 和/或减药 元素与对应的减药依据元 素, 组合成合用方实体组合。 5.根据权利要求4所述的方法, 其特征在于, 所述抽取基础方元素、 合方元素与对应的 合方依据元 素、 加药元素与对应的加药依据元 素、 减药元素与对应的减药依据元 素, 包括: 根据加药关键词、 减药关键词以及合方关键词在中医古籍文本中的位置, 将加药关键 词、 减药关键词以及合方关键词前侧连续出现的第一个方剂 类实体或第一组中药类实体确 定为基础方 元素; 如果合方关键词前后出现多个连续的方剂类实体, 且实体间无其他关键词, 则将除第 一个方剂类实体外的其他方剂 类实体确定为合方元素, 将合方关键词位置之前或之后出现 的非方剂类、 非中药类实体或实体组合确定为 合方依据; 如果加药关键词后出现第 一个中药类实体或第 一组连续出现的中药类实体, 则将所述 第一个中药类实体或第一组连续出现的中药类实体确定为加药元素, 将加药关键词位置之 前或之后出现的非方剂类、 非中药类实体或实体组合确定为加药依据; 如果减药关键词后出现第 一个中药类实体或第 一组连续出现的中药类实体, 则将所述 第一个中药类实体或第一组连续出现的中药类实体确定为减药元素, 将减 药关键词位置之 前或之后出现的非方剂类、 非中药类实体或实体组合确定为减药依据。 6.根据权利要求3所述的方法, 其特征在于, 所述基于预设的辨证论治实体组合抽取规 则, 基于实体 类型、 关键词以及抽取到的实体组合, 抽取辨证论治实体组合, 包括: 遍历待处理的中医古籍文本、 实体列表和所有实体组合, 抽取病元素、 症元素、 病因病 机元素、 治则治法元 素、 方元素以及药 元素; 基于强关联关键词、 禁忌关键词以及文本切片关键词, 以及抽取到的病元素、 症元素、 病因病机元 素、 治则治法元 素、 方元素以及药 元素, 生成辨证论治实体组合。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述实体组合进行实体关系抽 取, 包括: 对抽取到的实体组合进行组合内关系的抽取; 对抽取到的实体组合进行组合外关系的抽取; 基于抽取到的实体组合进行次要类型实体关系的抽取。 8.一种基于双模式的中 医古籍文本实体关系抽取装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待抽取的中 医古籍文本; 第一确定模块, 用于确定中 医古籍文本中各实体的实体 类型; 第二确定模块, 用于根据 预设的关键词判定规则, 确定所述中医古籍文本 中的关键词; 其中, 所述关键词包括加药关键词、 减 药关键词、 合方关键词、 禁忌关键词、 强关联关键词以 及文本切片关键词; 抽取模块, 用于基于所述各实体的实体类型以及关键词, 在所述中医古籍文本中抽取 实体组合; 实例化模块, 用于基于所述实体组合进行实体关系抽取, 并实例化为关系三元组, 所述 关系三元组由两个实体和两个实体之间的实体关系组成, 所述实体关系包括组合内关系、 组合外关系以及次要类型实体关系, 其中, 所述组合内关系为实体组合内的实体与同一个 实体组合内的其它实体之 间的关系, 所述组合外关系包括每个实体组合中的实体与其它实 体组合内的实体之间的关系 、 以及每个实体组合中的实体与组合外的实体之间的关系;权 利 要 求 书 2/3 页 3 CN 115409036 A 3

.PDF文档 专利 一种基于双模式的中医古籍文本实体关系抽取方法及装置

安全报告 > 其他 > 文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双模式的中医古籍文本实体关系抽取方法及装置 第 1 页 专利 一种基于双模式的中医古籍文本实体关系抽取方法及装置 第 2 页 专利 一种基于双模式的中医古籍文本实体关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:38:26上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。