专利数据处理方法、装置、存储介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111670101.6 (22)申请日 2021.12.31 (71)申请人东软集团股份有限公司地址 110179 辽宁省沈阳市浑南新区新秀街2号 (72)发明人何涛　王晨　宋庆荔　李志　刘建生　闻英友　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师张桂杰 (51)Int.Cl. G16H 50/30(2018.01) G16H 50/70(2018.01) G06K 9/62(2022.01) (54)发明名称数据处理方法、装置、存储介质及电子设备 (57)摘要本公开涉及一种数据处理方法、装置、存储介质及电子设备。所述方法包括：获取待处理的检查数据，检查数据包括目标用户在一次体检中检查的至少一个检查指标及检查指标各自对应的指标值；根据与目标生理状态相关联的至少一个目标检查指标，从检查数据中筛选出与目标检查指标对应的目标指标值；根据目标指标值和预训练的分类模型，确定针对检查数据的分类结果，作为目标分类结果，目标分类结果用于表征目标用户在未来处于目标生理状态的风险程度，其中，分类模型包括依次相连的多个决策树模块，每一决策树模块包含至少一个决策树，且在分类模型由输入至输出的方向上，每一决策树模块所包含的决策树数量依次减少。权利要求书3页说明书12页附图4页 CN 114496243 A 2022.05.13 CN 114496243 A 1.一种数据处理方法，其特征在于，所述方法包括：获取待处理的检查数据，所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值；根据与目标生理状态相关联的至少一个目标检查指标，从所述检查数据中筛选出与所述目标检查指标对应的目标指标值；根据所述目标指标值和预训练的分类模型，确定针对所述检查数据的分类结果，作为目标分类结果，所述目标分类结果用于表征所述目标用户在未来处于所述目标生理状态的风险程度，其中，所述分类模型包括依次相连的多个决策树模块，每一决策树模块包含至少一个决策树，且在所述分类模型由输入至输出的方向上，每一决策树模块所包含的决策树数量依次减少。 2.根据权利要求1所述的方法，其特征在于，所述与目标生理状态相关联的目标检查指标通过如下方式确定：获取多个历史数据样本及每一历史数据样本对应的分类标签，其中，每一所述历史数据样本包括指定类型用户对应于多个历史检查指标的历史指标值，所述指定类型用户为出现过目标生理特征的用户，所述目标生理特征为用户的生理状态变化至所述目标生理状态之前所具有的生理特征，所述分类标签用于表征所述历史数据样本所关联的用户在出现所述目标生理特征后处于所述目标生理状态的风险程度；对所述历史数据样本进行标准化处理，得到各历史指标值对应的历史特征值，以使对应于同一历史检查指标的多个历史特征值均值为0且方差为1；根据每一所述历史数据样本的历史特征值和分类标签，确定多元线性回归模型，其中，在所述多元线性回归模型中，所述历史数据样本的每种历史检查指标对应有一权重系数；确定所述多元线性回归模型的损失函数，其中，所述损失函数为均方误差与正则项之和，所述正则项具有正则化系数；通过调整所述正则化系数，改变所述历史检查指标对应的权重系数，并根据所述历史检查指标对应的权重系数的变化情况，确定所述目标检查指标。 3.根据权利要求2中所述的方法，其特征在于，所述通过调整所述正则化系数，改变所述历史检查指标对应的权重系数，并根据所述历史检查指标对应的权重系数的变化情况，确定所述目标检查指标，包括：在每次训练过程中，增大所述正则化系数的值，以使至少一个权重系数变为0，并确定权重系数仍不为0的历史检查指标的第一数量；当所述第一数量小于预设的第二数量时，停止训练，并将停止训练时权重系数不为0的历史检查指标确定为所述目标检查指标。 4.根据权利要求2所述的方法，其特征在于，按照如下公式确定所述损失函数中的均方误差MSE：其中， m为所述历史数据样本的数量， θ为由所述权重系数构成的权重系数向量， θT为所述权重系数向量的转置， X(k)为第k个历史数据样本的历史特征值， y(k)为第k个历史数据样权　利　要　求　书 1/3 页 2 CN 114496243 A 2本的分类标签；并且，所述损失函数中的正则项包括第一正则项和/或第二正则项；若所述损失函数中包括第一正则项，则按照如下公式，确定第一正则项R1：若所述损失函数中包括第二正则项，则按照如下公式，确定第二正则项R2：其中， α 为所述正则化系数， θi为第i个历史检查指标的权重系数， n为历史检查指标的数量。 5.根据权利要求2所述的方法，其特征在于，所述分类模型通过如下方式训练得到：从每一历史数据样本中确定出与所述目标检查指标对应的历史指标值，以得到训练样本，并确定每一所述训练样本对应的分类标签；确定初始的极限树模型，所述初始的极限树模型包括依次相连的L个决策树模块，并且第1个决策树模块至第L个决策树模块沿所述极限树模型由输入至输出的方向排列，其中第 1个决策树模块用于接收模型训练所使用的数据，第L个决策树模块包含1个决策树，且所述第L个决策树模块用于输出分类结果；基于所述训练样本和所述训练样本对应的分类标签，对所述极限树模型进行训练，以得到训练完成的所述分类模型。 6.根据权利要求5所述的方法，其特征在于，所述基于所述训练样本和所述训练样本对应的分类标签，对所述极限树模型进行训练，以得到训练完成的所述分类模型，包括：基于所述训练样本和所述训练样本对应的分类标签，筛选出预设比例的训练样本作为训练集，并使所述训练集中对应于不同分类标签的训练样本的比例符合预设比例；利用所述训练集，通过交叉验证法对所述极限树模型进行训练，以得到所述分类模型。 7.根据权利要求5所述的方法，其特征在于，在训练过程中，所述极限树模型的第s个决策树模块中每一决策树的输入内容为对第s ‑1个决策树模块中每一决策树的输出内容进行拼接后得到的拼接结果，其中， 2≤s≤L。 8.根据权利要求1 ‑7中任一项所述的方法，其特征在于，所述风险程度对应有多个预设分类，所述目标分类结果为所述检查数据属于各预设分类的概率；所述根据所述目标指标值和预训练的分类模型，确定针对所述检查数据的分类结果，作为目标分类结果，包括：将所述目标指标值输入至所述分类模型，得到所述目标分类结果；将所述目标分类结果中概率值最高的预设分类确定为所述检查数据所属的目标预设分类。 9.一种数据处理装置，其特征在于，所述装置包括：第一获取模块，用于获取待处理的检查数据，所述检查数据包括目标用户在一次体检中检查的至少一个检查指标及所述检查指标各自对应的指标值；筛选模块，用于根据与目标生理状态相关联的至少一个目标检查指标，从所述检查数权　利　要　求　书 2/3 页 3 CN 114496243 A 3

专利 数据处理方法、装置、存储介质及电子设备

专利数据处理方法、装置、存储介质及电子设备