全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111670101.6 (22)申请日 2021.12.31 (71)申请人 东软集团股份有限公司 地址 110179 辽宁省沈阳市 浑南新区新秀 街2号 (72)发明人 何涛 王晨 宋庆荔 李志  刘建生 闻英友  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 张桂杰 (51)Int.Cl. G16H 50/30(2018.01) G16H 50/70(2018.01) G06K 9/62(2022.01) (54)发明名称 数据处理方法、 装置、 存 储介质及电子设备 (57)摘要 本公开涉及一种数据处理方法、 装置、 存储 介质及电子设备。 所述方法包括: 获取待处理的 检查数据, 检查数据包括目标用户在一次体检中 检查的至少一个检查指标及检查指标各自对应 的指标值; 根据与目标生理状态相关联的至少一 个目标检查指标, 从检查数据中筛选出与目标检 查指标对应的目标指标值; 根据目标指标值和预 训练的分类模型, 确定针对检查数据的分类结 果, 作为目标分类结果, 目标分类结果用于表征 目标用户在未来处于目标生理状态的风险程度, 其中, 分类模型包括依次相连的多个决策树模 块, 每一决策树模块包含至少一个决策树, 且在 分类模型由输入至输出的方向上, 每一决策树模 块所包含的决策树数量依次减少。 权利要求书3页 说明书12页 附图4页 CN 114496243 A 2022.05.13 CN 114496243 A 1.一种数据处 理方法, 其特 征在于, 所述方法包括: 获取待处理的检查数据, 所述检查数据包括目标用户在一 次体检中检查的至少一个检 查指标及所述检查指标 各自对应的指标值; 根据与目标生理状态相关联的至少一个目标检查指标, 从所述检查数据中筛选出与 所 述目标检查指标对应的目标指标值; 根据所述目标指标值和预训练的分类模型, 确定针对所述检查数据的分类结果, 作为 目标分类结果, 所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的 风险程度, 其中, 所述分类模型包括依次相连的多个决策树模块, 每一决策树模块包含至少 一个决策树, 且在所述分类模型 由输入至输出 的方向上, 每一决策树模块所包含的决策树 数量依次减少。 2.根据权利要求1所述的方法, 其特征在于, 所述与目标生理状态相关联的目标检查指 标通过如下 方式确定: 获取多个历史数据样本及每一历史数据样本对应的分类标签, 其中, 每一所述历史数 据样本包括指 定类型用户对应于多个历史检查指标的历史指标值, 所述指 定类型用户为出 现过目标生理特征的用户, 所述目标生理特征为用户的生理状态变化至所述目标生理状态 之前所具有的生理特征, 所述分类标签用于表征所述历史数据样本所关联的用户在出现所 述目标生理特 征后处于所述目标生理状态的风险程度; 对所述历史数据样本进行标准化处理, 得到各历史指标值对应的历史特征值, 以使对 应于同一历史检查指标的多个历史特 征值均值 为0且方差为1; 根据每一所述历史数据样本的历史特征值和分类标签, 确定多元线性 回归模型, 其中, 在所述多元线性回归 模型中, 所述历史数据样本的每种历史检查指标对应有一权 重系数; 确定所述多元线性回归模型的损 失函数, 其中, 所述损 失函数为均方误差与正则项之 和, 所述正则项具有正则化系数; 通过调整所述正则化系数, 改变所述历史检查指标对应的权重系数, 并根据所述历史 检查指标对应的权 重系数的变化情况, 确定所述目标检查指标。 3.根据权利要求2中所述的方法, 其特征在于, 所述通过调整所述正则化系数, 改变所 述历史检查指标对应的权重系 数, 并根据所述历史检查指标对应的权重系 数的变化情况, 确定所述目标检查指标, 包括: 在每次训练过程中, 增大所述正则化系数的值, 以使至少一个权重系数变为0, 并确定 权重系数仍 不为0的历史检查指标的第一数量; 当所述第 一数量小于预设的第 二数量时, 停止训练, 并将停止训练时权重系数不为0的 历史检查指标确定为所述目标检查指标。 4.根据权利要求2所述的方法, 其特征在于, 按照如下公式确定所述损失函数中的均方 误差MSE: 其中, m为所述历史数据样本的数量, θ为由所述权重系数构成的权重系数向量, θT为所 述权重系数向量的转置, X(k)为第k个历史数据样本的历史特征值, y(k)为第k个历史数据样权 利 要 求 书 1/3 页 2 CN 114496243 A 2本的分类标签; 并且, 所述损失函数中的正则项包括第一 正则项和/或第二 正则项; 若所述损失函数中包括第一 正则项, 则按照如下公式, 确定第一 正则项R1: 若所述损失函数中包括第二 正则项, 则按照如下公式, 确定第二 正则项R2: 其中, α 为所述正则化系数, θi为第i个历史检查指标的权重系数, n为历史检查指标的数 量。 5.根据权利要求2所述的方法, 其特 征在于, 所述分类模型通过如下 方式训练得到: 从每一历史数据样本中确定出与 所述目标检查指标对应的历史指标值, 以得到训练样 本, 并确定每一所述训练样本对应的分类标签; 确定初始的极限树模型, 所述初始的极限树模型包括依次相连的L个决策树模块, 并且 第1个决策树模块至第L个决策树模块沿所述极限树模型由输入至输出的方向排列, 其中第 1个决策树模块用于接收模 型训练所使用的数据, 第L个决策树模块包含1个决策树, 且所述 第L个决策树模块用于 输出分类结果; 基于所述训练样本和所述训练样本对应的分类标签, 对所述极限树模型进行训练, 以 得到训练完成的所述分类模型。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述训练样本和所述训练样本对 应的分类标签, 对所述极限树模型进行训练, 以得到训练完成的所述分类模型, 包括: 基于所述训练样本和所述训练样本对应的分类标签, 筛选出预设比例的训练样本作为 训练集, 并使所述训练集中对应于不同分类标签的训练样本的比例符合预设比例; 利用所述训练集, 通过交叉验证法对所述极限树模型进行训练, 以得到所述分类模型。 7.根据权利要求5所述的方法, 其特征在于, 在训练过程中, 所述极限树模型的第s个决 策树模块中每一决策树的输入内容为对第s ‑1个决策树模块中每一决策树的输出内容进 行 拼接后得到的拼接结果, 其中, 2≤s≤L。 8.根据权利要求1 ‑7中任一项所述的方法, 其特征在于, 所述风险程度对应有多个预设 分类, 所述目标分类结果 为所述检查数据属于各 预设分类的概 率; 所述根据所述目标指标值和预训练的分类模型, 确定针对所述检查数据的分类结果, 作为目标分类结果, 包括: 将所述目标指标值输入至所述分类模型, 得到所述目标分类结果; 将所述目标分类结果中概率值最高的预设分类确定为所述检查数据所属的目标预设 分类。 9.一种数据处 理装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取待处理的检查数据, 所述检查数据包括目标用户在一次体检 中检查的至少一个 检查指标及所述检查指标 各自对应的指标值; 筛选模块, 用于根据与目标生理状态相关联的至少一个目标检查指标, 从所述检查数权 利 要 求 书 2/3 页 3 CN 114496243 A 3

.PDF文档 专利 数据处理方法、装置、存储介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、存储介质及电子设备 第 1 页 专利 数据处理方法、装置、存储介质及电子设备 第 2 页 专利 数据处理方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。