全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111414779.8 (22)申请日 2021.11.25 (71)申请人 中国海洋大学 地址 266100 山东省青岛市崂山区松岭路 238号 (72)发明人 王鑫宁 赵宇奔  (74)专利代理 机构 青岛锦佳专利代理事务所 (普通合伙) 37283 代理人 朱玉建 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/20(2012.01) G06K 9/62(2022.01) G06N 3/00(2006.01) G06N 20/20(2019.01) (54)发明名称 一种基于大数据的学情预测方法 (57)摘要 本发明公开了一种基于大数据的学情预测 方法, 该方法包括如下步骤: 通过学情特征选择 与数据预处理, 得到学情样本数据集并分成训练 集和测试集; 然后搭建XGBoo st学情预测模型, 并 基于鲸鱼优化算法和灰狼优化算法, 利用训练集 对模型的超参数分别进行调优, 得到相应的超参 数向量, 并进一步基于 鲸鱼优化算法和灰狼优化 算法得到的超参数向量, 得到XGBoost学情预测 模型的最优超参数, 完成模型训练; 然后将测试 集中的测试样本输入到训练好的XGBoo st学情预 测模型中, 判断模型能否达到预期 的预测效果, 如果符合预期的预测效果, 则利用训练好的 XGBoost学情预测模型进行学情预测。 本发明方 法充分考虑了学情预测的影 响因素, 并通过上述 几种方法的组合, 利于提高学情预测的准确率。 权利要求书3页 说明书6页 附图1页 CN 114169595 A 2022.03.11 CN 114169595 A 1.一种基于大 数据的学情预测方法, 其特 征在于, 包括如下步骤: 步骤1.学情特 征选择与数据预处 理; 从学校学生数据共享平台获取n个学生的学习和一卡通的各项数据, 选取用于进行学 情预测的学情特 征, 然后对学情特 征进行预处理, 得到对应于每 个学生的学情 样本; 所述学情特征包括性别, 籍贯, 以往课程成绩, 奖学金获得情况, 图书馆进馆情况, 早、 中、 晚消费时间, 心理健康状况, 所 预测科目教工编号以及所 预测科目成绩; 经过学情特征选取与数据预处理得到由n个学情样本组成的数据集, 将数据集中70% 的学情样本作为训练集用于模型训练, 将数据集中30%的学情样本作为测试集用于模型测 试; 步骤2.搭建XGBo ost学情预测模型; 步骤2.1.初始化XGBo ost学情预测模型的超参数; 初始化的超参数包括对学情特征进行分割的树的最大深度Dmax、 学习率eta、 学情特征 的最小划分损失阈值Gmin以及控制模型复杂度的超参数 λ和γ; 步骤2.2.设置经验损失函数, 计算训练集中训练样本在当前树的目标函数Obj: 其中, U表示训练集中训练样本的数量; 公式(1)等式右边第一项为经验损失函数, yi表示预测科目的真实成绩, 表示前 k‑1棵树对该 科成绩的 的预测值之和, fk(xi)表示建立第k棵树预测第i个样本的成绩; 公式(1)等式右边的第二项以及第三项为控制XGBoost学情预测模型复杂度的正则化 函数, 其中, 参数T为叶子结点数, wj为第j个叶子结点 值; 步骤2.3.通过泰勒展开近似变换公式(1), 得到如公式(2)所示的目标函数; 其中, Ij为落入第j个叶子结点的训练样本的集 合; gi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的一阶偏导数; hi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的二阶偏导数; 表示前k‑1棵树对该 科成绩的预测值之和; l表示损失函数, 用于度量XGBo ost学情预测模型的预测值与实际值之间的差异; 表示真实值和前k ‑1棵树累加的预测值的损失函数; 的计算公式为: 步骤2.4.依据公式(2)通过贪婪算法建立树, 每棵树都得到一个预测值, 将每棵树的预 测值累加得到成绩预测值, 利用贪婪算法不断建树, 使成绩预测值逼近真实值; 贪婪算法建立 树的具体过程如下: 步骤2.4.1.从深度为0的树 开始, 对每 个叶子结点枚举所有可能的学情特 征;权 利 要 求 书 1/3 页 2 CN 114169595 A 2步骤2.4.2.在枚举过程中, 用分裂前的目标函数减去分裂后的目标函数, 得到信息增 益Gain, 如公式(3)所示, 此处, 目标函数即公式(2)示出的目标函数; 其中, GL为左子树中训练样本的一阶导数之和, HL为左子树中训练样本的二阶导数之 和, GR为右子树中训练样本的一阶导数之和, HR为右子树中训练样本的二阶导数之和; 步骤2.4.3.将训练集中所有训练样本按照 升序进行排列, 比较得到分裂结点处信息增 益Gain最大的最佳分裂点, 并将其记录为 最大增益; 步骤2.4.4.选择增益最大的学情特征为分裂特征, 用该特征的最佳分裂点作为分裂位 置, 在该结点上分裂出左右两个新的叶结点, 并为每 个新结点关联对应的训练样本集; 步骤2.4.5.重复以上步骤, 直到最大增益Gain为预先设定的最小划分损失阈值Gmin, 则 当前树建立完毕, 得到弱分类 器, 并更新强分类 器, 进入下一轮迭代; 步骤3.对XGBo ost学情预测模型的超参数进行调优; 步骤3.1.利用鲸鱼优化 算法寻找XGBo ost学情预测模型的最优 超参数, 过程如下: 步骤3.1.1.初始化鲸鱼种群数量M, 随机产生M个超参数的位置; 设置最大迭代次数为T1max; 步骤3.1.2.设置适应度函数为决定系数R12, 决定系数R12的计算公式如下: 式中, 为实际成绩的平均值, 表示成绩预测值; 利用上述决定系数R12计算M个XGBoost学情预测模型的超参数的适应度, 并根据适应度 值的大小排序, 选取适应度最优的超参数为 最优位置; 步骤3.1.3.更新下一代搜索代理的位置, 公式如下: Dd+1=D*d+ebp·cos(2 πp)·|D*d‑Dd|; 式中, d表示当前迭代次数, Dd表示第d次迭代的位置向量, D*d表示目前为止最佳位置向 量, Dd+1表示第d+1次迭代的位置向量, b和p为搜寻轨 迹参数; 步骤3.1.4.重复以上迭代过程, 直到迭代次数k达到最大迭代次数T1max, 则得到鲸鱼算 法优化后的XGBo ost学情预测模型的超参数向量A; 步骤3.2.利用灰狼优化 算法寻找XGBo ost学情预测模型的最优 超参数; 步骤3.2.1.随机产生数量 为N的灰狼种群作为XGBo ost学情预测模型的超参数群; 设置灰狼优化 算法的相关参数, 包括收敛因子 c、 系数w和z; 设置适应度函数为决定系数R22和最大迭代次数T2max; 决定系数R22的公式如下: 步骤3.2.2.计算每 个超参数的适应度, 并决定α 、 β 和 δ 三个适应度最 好的搜索代理; 步骤3.2.3.依据下式更新 适应度和超参数的位置: Dt+1=D*t‑(2c·w‑c)(2z·D*t‑Dt); 式中, t为当前迭代次数, D*t代表最佳超参数位置向 量, Dt表示当前超参数位置向量, Dt+1表示下一次迭代超参数位置向量;权 利 要 求 书 2/3 页 3 CN 114169595 A 3

.PDF文档 专利 一种基于大数据的学情预测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的学情预测方法 第 1 页 专利 一种基于大数据的学情预测方法 第 2 页 专利 一种基于大数据的学情预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:16:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。