(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221097680 6.9
(22)申请日 2022.08.15
(71)申请人 中国中医科学院中药研究所
地址 100000 北京市东城区东 直门内南小
街16号
申请人 中国中医科学院中医药信息 研究所
(72)发明人 张华敏 曾子玲 佟琳 鄢青青
陈广坤 张磊 高宏杰 王晶
刘彦明
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/36(2019.01)G06F 16/33(2019.01)
G16H 50/70(2018.01)
G16H 20/90(2018.01)
G16H 70/40(2018.01)
G16H 70/60(2018.01)
(54)发明名称
一种基于双模式的中医古籍文本实体关系
抽取方法及装置
(57)摘要
本发明涉及自然语 言处理技术领域, 特别是
指一种基于双模式的中医古籍文本实体关系抽
取方法及装置。 方法包括: 获取待抽取的中医古
籍文本; 确定中医古籍文本中各实体的实体类
型; 根据预设的关键词判定规则, 确定中医古籍
文本中的关键词, 其中, 关键词至少包括加药关
键词、 减药关键词、 合方关键词、 禁忌关键词、 强
关联关键词以及文本切片关键词; 基于各实体的
实体类型以及关键词, 在中医古籍文本中抽取实
体组合; 基于实体组合进行实体关系抽取, 并实
例化为关系三元组, 关系三元 组由两个实体和两
个实体之间的实体 关系组成; 将关系三元组以图
数据库的形式存储起来。 采用本发明, 可 以提高
中医古籍文本实体关系抽取的准确性。
权利要求书3页 说明书16页 附图4页
CN 115409036 A
2022.11.29
CN 115409036 A
1.一种基于双模式的中 医古籍文本实体关系抽取 方法, 其特 征在于, 所述方法包括:
S1、 获取待抽取的中 医古籍文本;
S2、 确定中 医古籍文本中各实体的实体 类型;
S3、 根据预设的关键词判定规则, 确定所述中医古籍文本中的关键词; 其中, 所述关键
词至少包括加药关键词、 减药关键词、 合方关键词、 禁忌关键词、 强关联关键词以及文本切
片关键词;
S4、 基于所述各实体的实体 类型以及关键词, 在所述中 医古籍文本中抽取实体组合;
S5、 基于所述实体组合进行实体关系抽取, 并实例化为关系三元组, 所述关系三元组由
两个实体和两个实体之间的实体关系组成, 所述实体关系包括组合内关系、 组合外关系以
及次要类型实体关系, 其中, 所述组合内关系为实体组合内的实体与同一个实体组合内的
其它实体之 间的关系, 所述组合外 关系包括每个实体组合中的实体与其它实体组合内的实
体之间的关系 、 以及每个实体组合中的实体与组合外的实体之间的关系;
S6、 将所述关系三元组以图数据库的形式存 储起来。
2.根据权利要求1所述的方法, 其特征在于, 所述各实体的实体类型包括10类主要类型
实体以及12类次要类型实体;
其中, 所述10类主要类型实体包括症状、 脉象、 舌象、 疾病、 病因病机、 病性要素、 病位要
素、 治则治法、 方剂以及中药;
所述12类次要类型实体包括体质、 医家、 地理名称、 分期、 时间、 年龄、 性别、 预后、 中医
古籍、 成书朝代、 成书年以及中药剂量。
3.根据权利要求2所述的方法, 其特征在于, 所述实体组合包括病因病机组合、 症状群
组合、 治则治法组合、 合用方 组合以及辨证论治组合, 所述合用方组合包括但 不限于病因病
机组合、 症状群组合、 治则治法组合, 所述辨证论治组合包括但不限于病因病机组合、 症状
群组合、 治则治法组合;
所述基于所述各实体的实体类型以及关键词, 在所述中医古籍文本中抽取实体组合,
包括:
基于病因病机、 病性要素以及病位要素三种实体 类型, 抽取病因病机实体组合;
基于症状、 脉象以及舌象三种实体 类型, 抽取症状 群实体组合;
基于治则治法的实体 类型, 抽取治则治法实体组合;
抽取完病因病机实体组合、 症状群实体组合以及治则治法实体组合后, 基于实体类型、
关键词、 抽取到的实体组合以及预设的第一模式, 抽取合用方实体组合; 其中, 所述第一模
式包括: 基础方、 合方或合方依据、 加药或加药依据、 以及减药或减药依据;
抽取完病因病机实体组合、 症状群实体组合、 治则治法实体组合以及合用方实体组合
后, 基于实体类型、 关键词、 抽取到的实体组合以及预设的第二模式, 抽取辨证论治实体组
合; 其中, 所述第二模式包括: 病和/或症、 病因病机、 治则治法以及方和/或药。
4.根据权利要求3所述的方法, 其特征在于, 所述基于预设的合用方实体组合抽取规
则, 基于实体 类型、 关键词以及抽取到的实体组合, 抽取合用方实体组合, 包括:
遍历所述中医古籍文本、 实体列表和所有实体组合, 抽取基础方元素、 合方元素与对应
的合方依据元 素、 加药元素与对应的加药依据元 素、 减药元素与对应的减药依据元 素;
将基础方元素以及合方元素与对应的合方依据元素、 和/或加药元素与对应的加药依权 利 要 求 书 1/3 页
2
CN 115409036 A
2据元素、 和/或减药 元素与对应的减药依据元 素, 组合成合用方实体组合。
5.根据权利要求4所述的方法, 其特征在于, 所述抽取基础方元素、 合方元素与对应的
合方依据元 素、 加药元素与对应的加药依据元 素、 减药元素与对应的减药依据元 素, 包括:
根据加药关键词、 减药关键词以及合方关键词在中医古籍文本中的位置, 将加药关键
词、 减药关键词以及合方关键词前侧连续出现的第一个方剂 类实体或第一组中药类实体确
定为基础方 元素;
如果合方关键词前后出现多个连续的方剂类实体, 且实体间无其他关键词, 则将除第
一个方剂类实体外的其他方剂 类实体确定为合方元素, 将合方关键词位置之前或之后出现
的非方剂类、 非中药类实体或实体组合确定为 合方依据;
如果加药关键词后出现第 一个中药类实体或第 一组连续出现的中药类实体, 则将所述
第一个中药类实体或第一组连续出现的中药类实体确定为加药元素, 将加药关键词位置之
前或之后出现的非方剂类、 非中药类实体或实体组合确定为加药依据;
如果减药关键词后出现第 一个中药类实体或第 一组连续出现的中药类实体, 则将所述
第一个中药类实体或第一组连续出现的中药类实体确定为减药元素, 将减 药关键词位置之
前或之后出现的非方剂类、 非中药类实体或实体组合确定为减药依据。
6.根据权利要求3所述的方法, 其特征在于, 所述基于预设的辨证论治实体组合抽取规
则, 基于实体 类型、 关键词以及抽取到的实体组合, 抽取辨证论治实体组合, 包括:
遍历待处理的中医古籍文本、 实体列表和所有实体组合, 抽取病元素、 症元素、 病因病
机元素、 治则治法元 素、 方元素以及药 元素;
基于强关联关键词、 禁忌关键词以及文本切片关键词, 以及抽取到的病元素、 症元素、
病因病机元 素、 治则治法元 素、 方元素以及药 元素, 生成辨证论治实体组合。
7.根据权利要求1所述的方法, 其特征在于, 所述基于所述实体组合进行实体关系抽
取, 包括:
对抽取到的实体组合进行组合内关系的抽取;
对抽取到的实体组合进行组合外关系的抽取;
基于抽取到的实体组合进行次要类型实体关系的抽取。
8.一种基于双模式的中 医古籍文本实体关系抽取装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待抽取的中 医古籍文本;
第一确定模块, 用于确定中 医古籍文本中各实体的实体 类型;
第二确定模块, 用于根据 预设的关键词判定规则, 确定所述中医古籍文本 中的关键词;
其中, 所述关键词包括加药关键词、 减 药关键词、 合方关键词、 禁忌关键词、 强关联关键词以
及文本切片关键词;
抽取模块, 用于基于所述各实体的实体类型以及关键词, 在所述中医古籍文本中抽取
实体组合;
实例化模块, 用于基于所述实体组合进行实体关系抽取, 并实例化为关系三元组, 所述
关系三元组由两个实体和两个实体之间的实体关系组成, 所述实体关系包括组合内关系、
组合外关系以及次要类型实体关系, 其中, 所述组合内关系为实体组合内的实体与同一个
实体组合内的其它实体之 间的关系, 所述组合外关系包括每个实体组合中的实体与其它实
体组合内的实体之间的关系 、 以及每个实体组合中的实体与组合外的实体之间的关系;权 利 要 求 书 2/3 页
3
CN 115409036 A
3
专利 一种基于双模式的中医古籍文本实体关系抽取方法及装置
安全报告 >
其他 >
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:26上传分享