全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210788055.8 (22)申请日 2022.07.06 (71)申请人 北京爱医声科技有限公司 地址 100095 北京市海淀区学清路10号院1 号楼A座19层190 3 (72)发明人 牛家赫 陶焜  (74)专利代理 机构 北京鸿元知识产权代理有限 公司 11327 专利代理师 董永辉 曹素云 (51)Int.Cl. G16H 50/70(2018.01) G16H 50/30(2018.01) G16H 10/60(2018.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种时序病例数据分析方法及装置 (57)摘要 本申请公开一种时序病例数据分析方法及 装置, 方法包括: 从各时序病例数据的采样频率 中确定固定采样频率, 对于采样频率高于固定采 样频率的时序病例数据, 从其中去除冗余数据, 对于采样频率低于固定采样频率的时序病例数 据, 在其中进行缺失值补全, 从而获得完整时序 病例数据; 将完整时序病例数据中每个时刻的数 据值进行向量嵌入获得词语, 根据所述词语获得 完整时序病例数据的句子表示, 将所述句子表示 输入到依次连接的长短期记忆网络、 dropout层 和softmax层中, 输 出多分类 结果。 本申请使用类 自然语言处理方法对时序病例数据中包含的信 息进行分类, 提高根据时序病例数据进行预测的 准确性。 权利要求书1页 说明书4页 附图1页 CN 115331824 A 2022.11.11 CN 115331824 A 1.一种时序病例数据分析 方法, 其特 征在于, 包括: 从各时序病例数据的采样频率中确定固定采样频率, 对于采样频率高于固定采样频率 的时序病例数据, 从其中去除冗余数据, 对于采样频率低于固定采样频率的时序病例数据, 在其中进行缺失值补全, 从而获得完整时序病例数据; 将完整时序病例数据中每个时刻的数据值进行向量嵌入获得词语, 根据 所述词语获得 完整时序病例数据的句子表示, 将所述句子表示输入到依次连接的长短期记忆网络、 dropout层和softmax层中, 输出多分类结果。 2.如权利要求1所述的时序病例数据分析方法, 其特征在于, 所述从各时序病例数据的 采样频率中确定固定采样频率之前, 以各时序病例数据的初始采样时刻为零时刻, 对齐各 时序病例数据。 3.如权利要求1所述的时序病例数据分析方法, 其特征在于, 所述缺失值补全是使用缺 失值前后的数据点进行多 项式插值或拉格朗日插值补充。 4.如权利要求1所述的时序病例数据分析方法, 其特征在于, 在输出多分类结果之后, 还将所述多分类结果中的所属类别标签作为实体输入到医学知识图谱中, 输出实体关系, 并根据所述实体关系排除错 误的所属类别标签, 从而得到最终分类结果。 5.如权利要求1所述的时序病例数据分析方法, 其特征在于, 在输出多分类结果之后, 还将所属类别标签组成多个标签序列输入到CRF层, 输出预测得分最高的标签序列作为最 终分类结果。 6.如权利要求1所述的时序病例数据分析方法, 其特征在于, 在所述各时序病例数据 中, 将非数值型 数据以one‑hot编码方式转 化为数值型 数据。 7.如权利要求1所述的时序病例数据分析方法, 其特征在于, 所述固定采样频率为各采 样频率的中间值。 8.如权利要求1所述的时序病例数据分析方法, 其特征在于, 若时序病例数据缺失值占 比超过20%, 则舍弃 该时序病例数据。 9.一种时序病例数据分析装置, 其特 征在于, 包括: 时序病例数据修正模块, 用于从各时序病例数据的采样频率中确定固定采样频率, 对 于采样频率高于固定采样频率的时序病例数据, 从其中去除冗余数据, 对于采样频率低于 固定采样频率的时序病例数据, 在其中进行缺失值补全, 从而获得完整时序病例数据; 分类模块, 用于将完整时序病例数据中每个时刻的数据值进行向量嵌入获得词语, 根 据所述词语获得完整时序病例数据的句子表示, 将所述句子表示输入到依次连接的长 短期 记忆网络、 dropout层和softmax层中, 输出多分类结果。权 利 要 求 书 1/1 页 2 CN 115331824 A 2一种时序病例数据分析方 法及装置 技术领域 [0001]本发明涉及人工智能技 术领域, 具体的, 公开 一种时序病例数据分析 方法及装置 。 背景技术 [0002]心血管疾病是慢性疾病中最常见、 最具普遍性和代表性的疾病, 心梗后发生的心 血管不良事件是导致死亡 的重要原因。 随着对健康问题的深入研究, 各种调查发现心血管 疾病的发病机制 十分复杂, 不单纯 由某一先天遗传特征或后 天的环境暴露引起, 而是 由多 种基因、 环境、 行为等因素共同联合作用的结果。 如何揭示这些因素在疾病初出苗头、 进一 步发展直至猝然发生的过程中所起到的作用则是一个重要的问题。 [0003]目前医疗领域有根据患者的病 理和生理指标预测心血管不良事件发生风险的相 关研究, 多采用队列研究的方法, 将通过几年甚至几十年的时间持续不断收集入队患者的 数据, 并根据数据建立单变量、 多变量的风险评估模型, 以回归分析或机器学习两大类方法 进行预测。 [0004]申请人发现, 该类预测多针对单项风险, 未考虑不同不良事件之间的相关性。 由于 预测的众多不良事件中, 部 分不良事件存在相关性或互斥 性, 未将该信息纳入考量范围的, 即会导致一定预测误差 。 发明内容 [0005]本申请提出一种类自然语言处理的方法, 将根据时序病例数据预测建模为下一个 词语预测任务, 并进行类别标签相关性的分析, 对分类结果的合理性进行约束。 [0006]本申请所采用的技 术方案如下: [0007]本发明公开 一种时序病例数据分析 方法, 包括: [0008]从各时序病例数据的采样 频率中确定固定采样 频率, 对于采样 频率高于固定采样 频率的时序病例数据, 从其中去除冗余数据, 对于采样频率低于固定采样频率的时序病例 数据, 在其中进行缺失值补全, 从而获得完整时序病例数据; [0009]将完整时序病例数据中每个时刻的数据值进行向量嵌入获得词语, 根据所述词语 获得完整时序病例数据的句 子表示, 将所述句 子表示输入到依 次连接的长短期记忆网络、 dropout层和softmax层中, 输出多分类结果。 [0010]可选地, 所述从各时序病例 数据的采样频率中确定固定采样频率之前, 以各时序 病例数据的初始采样时刻为 零时刻, 对齐各时序病例数据。 [0011]可选地, 所述缺失值补全是使用缺失值前后的数据点进行多项式插值或拉格朗日 插值补充。 [0012]可选地, 在输出多分类结果之后, 还将所述多分类结果中的所属类别标签作为实 体输入到医学知识图谱中, 输出实体关系, 并根据所述 实体关系排除错误的所属类别标签, 从而得到最终分类结果。 [0013]可选地, 在输出多 分类结果之后, 还将所属类别标签组成多个标签序列输入到C RF说 明 书 1/4 页 3 CN 115331824 A 3

.PDF文档 专利 一种时序病例数据分析方法及装置

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种时序病例数据分析方法及装置 第 1 页 专利 一种时序病例数据分析方法及装置 第 2 页 专利 一种时序病例数据分析方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。