专利一种基于机器学习的公共卫生数据可靠性评估系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211165934.1 (22)申请日 2022.09.23 (71)申请人上海市疾病预防控制中心地址 200050 上海市长宁区中山西路1380 号 (72)发明人夏寒　付晨　夏天　张诚　刘星航　道理　毛丹　林维晓　 (74)专利代理机构上海璀汇知识产权代理事务所(普通合伙) 31367 专利代理师程琼胤 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G16H 50/20(2018.01) (54)发明名称一种基于机器学习的公共卫生数据可靠性评估系统 (57)摘要本发明公开了一种基于机器学习的公共卫生数据可靠性评估系统，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤： S1，采用半监督学习的方法，探索逻辑回归、支持向量机、神经网络、随机森林与XGBoost模型在公共卫生数据可靠性评估方面的应用； S2，将半监督机器学习分为自主训练与合作训练两种模式，在总体特征可划分为两组子特征，使用合作训练通常会有更好的效果；具有提高半监督机器学习的效率及模型性能的好处，探索并构建多种类模型，并对各模型性能进行量化评估与比较，在此基础上进行模型选择，解决了单一模型无法达到最优效果的问题，进一步提升模型的性能和实用性。权利要求书2页说明书5页 CN 115510969 A 2022.12.23 CN 115510969 A 1.一种基于机器学习的公共卫生数据可靠性评估系统，其特征在于，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤： S1，采用半监督学习的方法，探索逻辑回归、支持向量机、神经网络、随机森林与 XGBoost模型在公共卫生数据可靠性评估方面的应用； S2，将半监督机器学习分为自主训练与合作训练两种模式，在总体特征可划分为两组子特征，使用合作训练通常会有更好的效果； S3，将数据特征划分成两组子特征，并分别基于已有的带可靠性标签数据对模型进行训练，训练出两个独立的模型，两个模型采用的算法可以不同，合作训练方法为： 1)将数据特征划分成两组子特征，并分别基于已有的带可靠性标签数据对模型进行训练，训练出两个独立的模型。两个模型采用的算法可以不同； 2)每个模型分别对无标签的数据进行分类； 3)分别选择两个模型分类结果中最有把握的数据(分类概率接近0或者1)，将分类结果作为伪标签； 4)将这些带伪标签的数据分别加入另一个模型的训练集中；重复步骤2)至4)，直到满足停止条件，得到最终模型； S4，总体特征无法划分为两组子特征时，可使用自我训练，也可以得到性能良好的模型，自我训练的大致方法为： 1)利用具有可靠性标签的少量数据作为训练集，训练出一个初始模型； 2)利用初始模型对剩余的无可靠性标签数据进行分类，并选择其中最有把握的数据 (分类概率接近0或者1)，将模型预测的分类作为这些数据的伪标签； 3)从无标签数据集中去除这些数据，将其加入有标签数据集，形成新的训练集； 4)根据新的训练集训练新的模型，取代初始模型或上一轮迭代的模型重复步骤2)至4)，直到满足停止条件，得到最终模型； S5，通过上述的半监督机器学习方法，在训练集上分别对拟探索的模型进行训练与构建，得到基础的数据可靠性评估模型； S6，模型构建完成后，在验证集上对各模型进行验证，根据验证结果对学习迭代次数、学习速率等超参数进行多轮次调优，使得模型拟合程度合适。将各模型在测试集上进行测试，并计算量化评估指标，评估各模型在数据可靠性评估方面的适用情况； S7，在超参数调整过程中加入可视化技术，使用图表直观展现模型损失值与迭代次数和学习速率之间的关系，从而寻找最优的超参数，使训练得到的模型性能尽可能令人满意； S8，在模型的量化评价方面，拟采用混淆矩阵对各模型性能进行直观展示，并使用F1分数作为量化评价标准， F1分数兼顾了模型的准确率与召回率，是机器学习模型常用的评价指标，其公式为： S9，根据各模型的量化评价结果，选择性能最优的模型作为最终使用的数据可靠性评估模型，如果在所有备选模型中，未能找到在全区间内性能均最优的模型(即存在多个在局部区间性能最优的模型)，则应通过模型融合的方法将多个局部最优模型进行融合，构建综权　利　要　求　书 1/2 页 2 CN 115510969 A 2合模型，提升模型在全区间内的性能，模型融合策略一般包括加权法、投票法及学习法，本研究采用学习法，通过堆叠方法，将各模型对同一条标签数据做出的可靠性评估结果作为特征，将该数据已知的可靠性情况作为标签，产生训练集并训练学习器，从而融合各模型的初步结果，产生最终的数据可靠性评估结果； S10，完成糖尿病随访场景下的公共卫生数据可靠性评估模型的构建后，对整体实施过程进行总结，复盘该过程中的详细步骤与方法，记录注意事项和经验教训，在此基础上，脱离特定的糖尿病随访场景，归纳基于机器学习的公共卫生数据可靠性评估一般方法，并确定其适用范围，完善其数据可靠性评估效果的评价机制，形成基于机器学习的公共卫生数据可靠性评估模式，指导该方法在公共卫生领域其它业务条线和业务场景的数据可靠性评估过程中落地应用。权　利　要　求　书 2/2 页 3 CN 115510969 A 3

专利 一种基于机器学习的公共卫生数据可靠性评估系统

专利一种基于机器学习的公共卫生数据可靠性评估系统