全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111667367.5 (22)申请日 2021.12.31 (71)申请人 北京华彬立成科技有限公司 地址 102200 北京市昌平区科技园区超前 路37号院16号楼 2层C2040 (72)发明人 周立运 谢伟  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 程琛 (51)Int.Cl. G16H 50/70(2018.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 16/36(2019.01) (54)发明名称 疾病信息挖掘和检索方法、 装置、 电子设备 和存储介质 (57)摘要 本发明提供一种疾病信息挖掘和检索方法、 装置、 电子设备和存储介质, 其中方法包括: 获取 待挖掘的各医学数据所包含的实体及其实体类 别, 所述实体类别属于预设类别, 预设类别包括 疾病、 分期、 病理、 生物标志物和患者基线特征中 的至少一种; 基于各医学数据中包含的实体及其 实体类别, 以及预设类别之间的层级关系, 构建 各医学数据对应的树状图谱; 对 各树状图谱进行 合并, 并基于合并后的树状图谱确定对应疾病的 分类体系, 基于分类体系进行疾病信息挖掘。 本 发明提供的方法、 装置、 电子设备和存储介质, 基 于疾病、 分期、 病理、 生物标志物和患者基线特征 等多个层 级构建疾病的分类体系, 为精准定位适 应症、 制定医学 策略等提供了条件。 权利要求书2页 说明书16页 附图5页 CN 114400099 A 2022.04.26 CN 114400099 A 1.一种疾病信息挖掘方法, 其特 征在于, 包括: 获取待挖掘的各医学数据所包含的实体及其实体类别, 所述实体类别属于预设类别, 所述预设类别包括疾病 、 分期、 病理、 生物标志 物和患者基线特 征中的至少一种; 基于各医学数据中包含的实体及其实体类别, 以及所述预设类别之间的层级关系, 构 建各医学 数据对应的树状图谱; 对各树状图谱进行合并, 并基于合并后的树状图谱确定对应疾病的分类体系, 基于所 述分类体系进行疾病信息挖掘。 2.根据权利要求1所述的疾病信息挖掘方法, 其特征在于, 所述对各树状图谱进行合 并, 包括: 从标准实体字典中选取 各树状图谱中的各实体的多个候选标准实体; 基于各树状图谱中的各实体及其多个候选标准实体之间的语义相关度, 确定各树状图 谱中的各实体的标准 实体, 并基于各树状图谱中的各实体的标准 实体对各树状图谱进 行标 准化; 对标准化后的各树状图谱进行合并。 3.根据权利要求2所述的疾病信 息挖掘方法, 其特征在于, 所述从标准实体字典中选取 各树状图谱中的各实体的多个候选标准实体, 包括: 基于标准实体字典中的各标准实体对于各树状图谱中的各实体的重要度, 从所述标准 实体字典中选取各树状图谱中的各实体的多个候选标准 实体, 所述重要度基于T F‑IDF算法 确定。 4.根据权利要求2所述的疾病信 息挖掘方法, 其特征在于, 所述各树状图谱中的各实体 及其多个候选标准实体之间的语义相关度基于如下步骤确定: 将任一树状图谱中的任一实体与任一候选标准实体拼接后输入到语义匹配模型中, 得 到所述语义匹配模型输出的所述任一实体与所述任一 候选标准实体之间的语义相关度; 所述语义匹配模型 是在语言模型的基础上微调得到的。 5.根据权利要求1至4中任一项所述的疾病信息挖掘方法, 其特征在于, 所述获取待挖 掘的各医学 数据所包 含的实体及其实体 类别, 包括: 对图像和/或表格形式的医学 数据进行区域分割, 得到区域图像; 对所述区域图像进行文字识别, 得到区域文本; 对所述区域文本进行预设类别的实体识别, 得到各医学数据中包含的实体及其实体类 别。 6.根据权利要求1至4中任一项所述的疾病信息挖掘方法, 其特征在于, 所述基于所述 分类体系进行疾病信息挖掘, 包括: 确定各疾病对应的多源数据; 对所述多源数据中的疾病信 息文本进行实体识别, 得到所述疾病信 息文本中包含的实 体; 将所述疾病信 息文本中包含的实体与所述分类体系中包含的实体进行匹配, 并基于匹 配结果建立所述疾病信息文本与所述分类 体系的连接关系。 7.根据权利要求6所述的疾病信 息挖掘方法, 其特征在于, 所述将所述疾病信 息文本中 包含的实体与所述分类 体系中包 含的实体进行匹配, 包括:权 利 要 求 书 1/2 页 2 CN 114400099 A 2将所述疾病信息文本中包含的实体与所述分类体系中包含的当前粒度的实体进行匹 配, 若匹配未成功, 则将所述分类体系中当前粒度的上一粒度更新为当前粒度进 行匹配, 直 至匹配成功或所述当前 粒度为所述分类 体系中的最大 粒度。 8.一种检索方法, 其特 征在于, 包括: 接收用户终端发送的待检索信息; 从疾病信息中, 确定与所述待检索信息相关的目标信息, 并将所述目标信息返回至所 述用户终端, 所述疾病信息是基于如权利要求 1至7中任一项 所述的疾病信息挖掘方法确定 的。 9.一种疾病信息挖掘装置, 其特 征在于, 包括: 实体获取单元, 用于获取待挖掘的各医学数据所包含的实体及其实体类别, 所述实体 类别属于预设类别, 所述预设类别包括疾病、 分期、 病理、 生物标志物和患者基线特征中的 至少一种; 图谱构建单元, 用于基于各医学数据中包含的实体及其实体类别, 以及所述预设类别 之间的层级关系, 构建各医学 数据对应的树状图谱; 信息挖掘单元, 用于对各树状图谱进行合并, 并基于合并后的树状图谱确定对应疾病 的分类体系, 基于所述分类 体系进行疾病信息挖掘。 10.一种检索装置, 其特 征在于, 包括: 接收单元, 用于接收用户终端发送的待检索信息; 检索单元, 用于从疾病信 息中, 确定与所述待检索信息相关的目标信 息, 并将所述目标 信息返回至所述用户终端, 所述疾病信息是基于如权利要求 1至7中任一项所述的疾病信息 挖掘方法确定的。权 利 要 求 书 2/2 页 3 CN 114400099 A 3

.PDF文档 专利 疾病信息挖掘和检索方法、装置、电子设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 疾病信息挖掘和检索方法、装置、电子设备和存储介质 第 1 页 专利 疾病信息挖掘和检索方法、装置、电子设备和存储介质 第 2 页 专利 疾病信息挖掘和检索方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。