全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165934.1 (22)申请日 2022.09.23 (71)申请人 上海市疾病预防控制中心 地址 200050 上海市长 宁区中山西路1380 号 (72)发明人 夏寒 付晨 夏天 张诚 刘星航  道理 毛丹 林维晓  (74)专利代理 机构 上海璀汇知识产权代理事务 所(普通合伙) 31367 专利代理师 程琼胤 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G16H 50/20(2018.01) (54)发明名称 一种基于机器学习的公共卫生数据可靠性 评估系统 (57)摘要 本发明公开了一种基于机器学习的公共卫 生数据可靠性评估系统, 包括以下阶段: 数据准 备阶段、 特征工程阶段以及模型评估与评价阶 段, 所述模型评估与评价阶段包括以下步骤: S1, 采用半监督学习的方法, 探索逻辑回归、 支持向 量机、 神经网络、 随机森林与XGBoost模型在公共 卫生数据可靠性评估方面的应用; S2, 将半监督 机器学习分为自主训练与合作训练两种模式, 在 总体特征可划分为两组子特征, 使用合作训练通 常会有更好的效果; 具有提高半监督机器学习的 效率及模型性能的好处, 探索并构建多种类模 型, 并对各模型性能进行量化评估与比较, 在此 基础上进行模 型选择, 解决了单一模 型无法达到 最优效果的问题, 进一步提升模 型的性能和实用 性。 权利要求书2页 说明书5页 CN 115510969 A 2022.12.23 CN 115510969 A 1.一种基于机器学习的公共卫生数据 可靠性评估系统, 其特征在于, 包括以下阶段: 数 据准备阶段、 特征工程阶段以及模型评估与评价阶段, 所述模型评估与评价 阶段包括以下 步骤: S1, 采用半监督学习的方法, 探索逻辑回归、 支持向量机、 神经网络、 随机森林与 XGBoost模型在公共卫 生数据可靠性评估方面的应用; S2, 将半监督机器学习分为自主训练与合作训练两种模式, 在总体特征可划分为两组 子特征, 使用合作训练通常会有更好的效果; S3, 将数据特征划分成两组子特征, 并分别基于已有的带可靠性标签数据对模型进行 训练, 训练出两个 独立的模型, 两个模型采用的算法可以不同, 合作训练方法为: 1)将数据特征划分成两组子特征, 并分别基于已有的带可靠性标签数据对模型进行训 练, 训练出两个 独立的模型。 两个模型采用的算法可以不同; 2)每个模型分别对无 标签的数据进行分类; 3)分别选择两个模型分类结果中最有把握的数据(分类概率接近0或者1), 将分类结果 作为伪标签; 4)将这些 带伪标签的数据分别加入另一个模型的训练集中; 重复步骤2)至4), 直到满足停止条件, 得到最终模型; S4, 总体特征无法划分为两组子特征时, 可使用自我训练, 也可以得到性能良好的模 型, 自我训练的大致方法为: 1)利用具有可靠性标签的少量数据作为训练集, 训练出一个初始模型; 2)利用初始模型对剩余的无可靠性标签数据进行分类, 并选择其中最有把握的数据 (分类概率接近0或者1), 将模型 预测的分类作为 这些数据的伪标签; 3)从无标签数据集中去除这些 数据, 将其加入有标签数据集, 形成新的训练集; 4)根据新的训练集训练新的模型, 取代初始模型或上一轮迭代的模型 重复步骤2)至4), 直到满足停止条件, 得到最终模型; S5, 通过上述的半监督机器学习方法, 在训练集上分别对拟探索的模型进行训练与构 建, 得到基础的数据可靠性评估 模型; S6, 模型构建完成后, 在验证集上对各模型进行验证, 根据验证结果对学习迭代次数、 学习速率等超参数进行多轮次调优, 使得模型拟合程度合适。 将各模型在测试集上进行测 试, 并计算 量化评估指标, 评估各模型在数据可靠性评估方面的适用情况; S7, 在超参数调整过程中加入可视化技术, 使用图表直观展现模型损 失值与迭代次数 和学习速率之间的关系, 从而寻找最优的超参数, 使训练得到的模型性能尽可能令人满意; S8, 在模型的量化评价方面, 拟采用混淆矩阵对各模型性能进行直观展示, 并使用F1分 数作为量化评价标准, F1分数兼顾了模型的准确率与召回率, 是机器学习模型常用的评价 指标, 其公式为: S9, 根据各模型的量化评价结果, 选择性能最优的模型作为最终使用的数据可靠性评 估模型, 如果在所有 备选模型中, 未能找到在 全区间内性能均最优的模型(即存在多个在局 部区间性能最优的模 型), 则应通过模 型融合的方法将多个局部最优模型进行融合, 构建综权 利 要 求 书 1/2 页 2 CN 115510969 A 2合模型, 提升模型在全区间内的性能, 模型融合策略一般包括加权法、 投票法及学习法, 本 研究采用学习法, 通过堆叠方法, 将各模型对同一条标签数据做出 的可靠性评估结果作为 特征, 将该数据已知的可靠性情况作为标签, 产生训练集并训练学习器, 从而融合各模型的 初步结果, 产生 最终的数据可靠性评估结果; S10, 完成糖尿病随访场景下的公共卫生数据可靠性评估模型的构建后, 对整体实施过 程进行总结, 复盘该过程中的详细步骤与方法, 记录注意事项和经验教训, 在此基础上, 脱 离特定的糖尿病随访场景, 归纳基于机器学习的公共卫生数据可靠性评估一般方法, 并确 定其适用范围, 完善其数据可靠性评估效果的评价机制, 形成基于机器学习的公共卫生数 据可靠性评估模式, 指导该方法在公共卫生领域其它业务条线和业务场景的数据可靠性评 估过程中落 地应用。权 利 要 求 书 2/2 页 3 CN 115510969 A 3

.PDF文档 专利 一种基于机器学习的公共卫生数据可靠性评估系统

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的公共卫生数据可靠性评估系统 第 1 页 专利 一种基于机器学习的公共卫生数据可靠性评估系统 第 2 页 专利 一种基于机器学习的公共卫生数据可靠性评估系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。