(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210117697.5
(22)申请日 2022.02.08
(71)申请人 吾征智能技 术 (北京) 有限公司
地址 100000 北京市海淀区西三 旗沁春家
园1号楼、 2号楼、 3号楼3层3 01-3045室
(72)发明人 李宗博 杜登斌 杜乐 杜小军
(74)专利代理 机构 武汉红观 专利代理事务所
(普通合伙) 42247
专利代理师 赵志汝
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G16H 80/00(2018.01)
(54)发明名称
一种基于医疗知识图谱的疾病 自动问答系
统、 设备及 介质
(57)摘要
本发明提出了一种基于医疗知识图谱的疾
病自动问答系统、 设备及介质, 通过知识图谱构
建模块搭建基于医学知识图谱M edKG的疾病自动
问答系统后台知识总 库; 疾病问句特征选择模块
识别用户病情提问语句中的疾病特征词并转化
为词向量; 知识图谱嵌入模块建立与疾病特征词
相关联的医学知识 图谱内实体及实体关系到低
维向量的空间投影, 生成关联实体向量; 多通道
卷积神经网络模块将疾病特征词向量与相关知
识实体向量作为多通道输入网络模 型进行训练,
实现预测功能; 自动化部署模块将各系统各功能
模块部署在云服务器上, 供客户端实时调用。 本
发明将疾病自动 问答系统和知识图谱深入融合
构建知识图谱疾病自动问答系统, 在自动化精准
问诊等方面具有重大意 义。
权利要求书3页 说明书7页 附图1页
CN 114510579 A
2022.05.17
CN 114510579 A
1.一种基于医疗知识图谱的疾病自动问答系统, 其特征在于, 所述一种基于医疗知识
图谱的疾病自动问答系统包括以下功能模块:
知识图谱构建模块: 用于搭建基于医学知识图谱MedKG的疾病自动问答系统后 台知识
总库;
疾病问句特征选择模块: 用于对用户病情提问语句中的疾病特征词进行识别, 完成疾
病特征词到词向量的转 化;
知识图谱嵌入模块: 用于建立与 所述疾病特征词相关联的医学知识图谱内实体及实体
关系到低维向量的空间投影, 生成关联实体向量;
多通道卷积神经网络模块: 用于将疾病特征词向量与相关知识实体向量作为多通道输
入网络模型进行训练, 实现预测功能;
自动化部署模块: 用于将各核心功能封装及压缩模型, 上传 云服务器完成访问路径、 端
口参数、 并发上限的配置, 供客户端实时调用。
2.如权利要求1所述的一种基于 医疗知识图谱的疾病自动问答系统, 其特征在于, 所述
知识图谱构建模块具体包括:
知识获取单元: 利用爬虫采集技术从多个医疗在线问答服务平台获取相关的疾病数据
并作为所述医学知识图谱的数据源;
数据预处理单元: 进行数据格 式转换和数据 过滤处理, 数据格式转换为: 将所述知识获
取单元中获取的疾病数据通过订制脚本文件批量转换为适合入库 的数据格式; 数据过滤
为: 对异常数据进行过滤筛选, 使经过数据格式转换处理的数据格式规整、 准确统一, 所述
异常数据包括空值、 重复值和无关标点;
知识抽取单元: 抽取所述数据预处理单元处理完成的数据完成疾病相关的实体、 关系
和属性, 构建疾病知 识图谱三元组<h ead,relation,tail>, head、 tail分别为三元组的头实
体、 尾实体, 都属于MedKG的实体集合, relation={r1,r1,…,rR}是MedKG的关系集合, 共包
含R种不同关系, 医疗实体head和tail作为MedKG中最基本的元素, 而关系relation存在于
不同head或tai l之间;
实体消歧单元: 对所述知识抽取单元中存在来源不同疾病却相同或同义的多源开放疾
病数据, 通过消歧操作确保实体唯一; 所述消歧操作包括重复实体名删除、 实体名同义互
换;
知识存储单元: 通过图形 数据库Neo 4j实现疾病数据的存 储和疾病知识图谱的可视化。
3.如权利要求2所述的一种基于 医疗知识图谱的疾病自动问答系统, 其特征在于, 所述
疾病问句特 征选择模块具体包括:
所述用户病情提问语句包括用户对自身疾病症状、 病因以及严重程度相关的描述语
句; 使用THULAC中文分词系统结合医疗专业疾病与症状词典, 对用户病情提问语句进行分
词、 词性标注及识别医疗实体处理, 并通过去除停用词及无意义的单字, 得到一组与病情描
述相关的疾病 特征词; 一条 由n个特征词构成的疾病 特征为x={w1,w2,…,wn}, 其中wi为构
成一条完整疾病语句中第i个位置的特 征词;
利用word2vec 的CBOW模型训练得到每个特征词转换后的词向量, 即映射为对应的d维
表示向量 w1:n∈Rd。
4.如权利要求3所述的一种基于 医疗知识图谱的疾病自动问答系统, 其特征在于, 所述权 利 要 求 书 1/3 页
2
CN 114510579 A
2知识图谱嵌入 模块具体包括:
基于实体链接EL技术将所述疾病问句特征选择模块中分词后的疾病特征x={w1,
w2,…,wn}, 与知识图谱构建模块构建的知识图谱MedKG三元组<head,relation,tail>进行
实体相似性计算, 得出MedKG内相关实体及实体关系数据信息, 进而构造疾病特征x={w1,
w2,…,wn}关联的子图谱sub ‑MedKG;
对所述疾病知识图谱三元组<head,relation,tail>, 通过TransD模型进行嵌入计算,
使用两个投影矩阵Mh和Mt将头实体h和尾实体t分别投影到关系空间, 并将每个关系的投影
矩阵分解为两个向量的乘积, 关系r被解释为从头实体h到尾实体t之 间的平移向量, 函数表
示为fr(h,t)=‖Mhh+r‑Mtt‖, 其中Mh=rphp+Im*n, Mt=rptp+Im*n, hp,tp∈Rm、 rp是映射向量, Im*n
是单位矩阵。
5.如权利要求4所述的一种基于 医疗知识图谱的疾病自动问答系统, 其特征在于, 所述
多通道卷积神经网络模块具体包括:
将从所述疾病问句特征选择模块和所述知识图谱嵌入模块获得疾病特征词向量、 实体
向量及实体上下文向量分别通过3个独立通道输入网络模型, 所述网络模型包括: 1)输入
层, 使用3个通道来接收向量; 2)卷积层, 对于不同的通道, 使用多窗口多 卷积核的方式进 行
卷积操作, 获取不同通道输入的局部特征, 形成特征信息图; 3)池化层, 使用不同的池化层
对不同的通道进 行下采样操作, 获取每个通道中最重要的特征信息; 4)合并层, 采用一个合
并层合并从不同通道获取 的局部特征, 形成一个局部特征向量, 并将该局部特征向量作为
隐藏层的输入; 5)隐藏层, 采用一个隐藏层 对局部特征向量进 行特征提取, 获取不同通道局
部特征之间的联系, 并通过权重矩阵学习不同通道的相互联系; 6)输出层, 使用函数
softmax输出 预测结果;
所述网络模型训练时采用自适应矩估计Adam算法来最小化目标函数, 并通过反向传播
来更新每 轮迭代过程中网络模型的各种参数, 直到模型达 到拟合要求。
6.如权利要求1所述的一种基于 医疗知识图谱的疾病自动问答系统, 其特征在于, 所述
自动化部署模块具体包括:
通过云服务器部署, 将各功能模块部署在云端服务器, 用户通过网页访问或者API接口
调用向云服 务器发出Service请求, 云服 务器收到请求后处 理并返回结果。
7.如权利要求6所述的一种基于医疗知识图谱的疾病自动问答系统, 其特 征在于,
为所述云服务器设置负载均衡和启动实例集群, 所述自动 化部署模块将所述基于 医疗
知识图谱的疾病自动问答系统的各功能模块部署完成后, 众多服务问诊平台通过云服务器
API接口访问基于医疗知识图谱的疾病自动问答系统。
8.一种电子设备, 其特征在于, 包括至少一个处理器、 至少一个存储器、 通信接口和总
线; 其中, 所述处理器、 存储器、 通信接口通过所述总线完成相互间的通信; 所述存储器存储
有可被所述处理器执行的一种基于医疗知识图谱的疾病自动问答系统功能程序, 一种基于
医疗知识图谱的疾病自动问答系统功能程序配置为实现如权利要求1至7任一项的一种基
于医疗知识图谱的疾病自动问答系统功能。
9.一种计算机可读存储介质, 其特征在于, 所述存储介质上存储有一种基于医疗知识
图谱的疾病自动问答系统功能程序, 所述一种基于医疗知识图谱的疾病自动问答系统功能
程序被执行时实现如权利要求1至7中任一项的一种基于医疗知识图谱的疾病自动问答系权 利 要 求 书 2/3 页
3
CN 114510579 A
3
专利 一种基于医疗知识图谱的疾病自动问答系统、设备及介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:52:00上传分享