[发明专利]一种基于大数据的学情预测方法在审

专利信息
申请号: 202111414779.8 申请日: 2021-11-25
公开(公告)号: CN114169595A 公开(公告)日: 2022-03-11
发明(设计)人: 王鑫宁;赵宇奔 申请(专利权)人: 中国海洋大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/20;G06K9/62;G06N3/00;G06N20/20
代理公司: 青岛锦佳专利代理事务所(普通合伙) 37283 代理人: 朱玉建
地址: 266100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 预测 方法
【权利要求书】:

1.一种基于大数据的学情预测方法,其特征在于,包括如下步骤:

步骤1.学情特征选择与数据预处理;

从学校学生数据共享平台获取n个学生的学习和一卡通的各项数据,选取用于进行学情预测的学情特征,然后对学情特征进行预处理,得到对应于每个学生的学情样本;

所述学情特征包括性别,籍贯,以往课程成绩,奖学金获得情况,图书馆进馆情况,早、中、晚消费时间,心理健康状况,所预测科目教工编号以及所预测科目成绩;

经过学情特征选取与数据预处理得到由n个学情样本组成的数据集,将数据集中70%的学情样本作为训练集用于模型训练,将数据集中30%的学情样本作为测试集用于模型测试;

步骤2.搭建XGBoost学情预测模型;

步骤2.1.初始化XGBoost学情预测模型的超参数;

初始化的超参数包括对学情特征进行分割的树的最大深度Dmax、学习率eta、学情特征的最小划分损失阈值Gmin以及控制模型复杂度的超参数λ和γ;

步骤2.2.设置经验损失函数,计算训练集中训练样本在当前树的目标函数Obj:

其中,U表示训练集中训练样本的数量;

公式(1)等式右边第一项为经验损失函数,yi表示预测科目的真实成绩,表示前k-1棵树对该科成绩的的预测值之和,fk(xi)表示建立第k棵树预测第i个样本的成绩;

公式(1)等式右边的第二项以及第三项为控制XGBoost学情预测模型复杂度的正则化函数,其中,参数T为叶子结点数,wj为第j个叶子结点值;

步骤2.3.通过泰勒展开近似变换公式(1),得到如公式(2)所示的目标函数;

其中,Ij为落入第j个叶子结点的训练样本的集合;

gi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的一阶偏导数;

hi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的二阶偏导数;

表示前k-1棵树对该科成绩的预测值之和;

l表示损失函数,用于度量XGBoost学情预测模型的预测值与实际值之间的差异;

表示真实值和前k-1棵树累加的预测值的损失函数;

的计算公式为:

步骤2.4.依据公式(2)通过贪婪算法建立树,每棵树都得到一个预测值,将每棵树的预测值累加得到成绩预测值,利用贪婪算法不断建树,使成绩预测值逼近真实值;

贪婪算法建立树的具体过程如下:

步骤2.4.1.从深度为0的树开始,对每个叶子结点枚举所有可能的学情特征;

步骤2.4.2.在枚举过程中,用分裂前的目标函数减去分裂后的目标函数,得到信息增益Gain,如公式(3)所示,此处,目标函数即公式(2)示出的目标函数;

其中,GL为左子树中训练样本的一阶导数之和,HL为左子树中训练样本的二阶导数之和,GR为右子树中训练样本的一阶导数之和,HR为右子树中训练样本的二阶导数之和;

步骤2.4.3.将训练集中所有训练样本按照升序进行排列,比较得到分裂结点处信息增益Gain最大的最佳分裂点,并将其记录为最大增益;

步骤2.4.4.选择增益最大的学情特征为分裂特征,用该特征的最佳分裂点作为分裂位置,在该结点上分裂出左右两个新的叶结点,并为每个新结点关联对应的训练样本集;

步骤2.4.5.重复以上步骤,直到最大增益Gain为预先设定的最小划分损失阈值Gmin,则当前树建立完毕,得到弱分类器,并更新强分类器,进入下一轮迭代;

步骤3.对XGBoost学情预测模型的超参数进行调优;

步骤3.1.利用鲸鱼优化算法寻找XGBoost学情预测模型的最优超参数,过程如下:

步骤3.1.1.初始化鲸鱼种群数量M,随机产生M个超参数的位置;

设置最大迭代次数为T1max

步骤3.1.2.设置适应度函数为决定系数R12,决定系数R12的计算公式如下:

式中,为实际成绩的平均值,表示成绩预测值;

利用上述决定系数R12计算M个XGBoost学情预测模型的超参数的适应度,并根据适应度值的大小排序,选取适应度最优的超参数为最优位置;

步骤3.1.3.更新下一代搜索代理的位置,公式如下:

Dd+1=D*d+ebp·cos(2πp)·|D*d-Dd|;

式中,d表示当前迭代次数,Dd表示第d次迭代的位置向量,D*d表示目前为止最佳位置向量,Dd+1表示第d+1次迭代的位置向量,b和p为搜寻轨迹参数;

步骤3.1.4.重复以上迭代过程,直到迭代次数k达到最大迭代次数T1max,则得到鲸鱼算法优化后的XGBoost学情预测模型的超参数向量A;

步骤3.2.利用灰狼优化算法寻找XGBoost学情预测模型的最优超参数;

步骤3.2.1.随机产生数量为N的灰狼种群作为XGBoost学情预测模型的超参数群;

设置灰狼优化算法的相关参数,包括收敛因子c、系数w和z;

设置适应度函数为决定系数R22和最大迭代次数T2max;决定系数R22的公式如下:

步骤3.2.2.计算每个超参数的适应度,并决定α、β和δ三个适应度最好的搜索代理;

步骤3.2.3.依据下式更新适应度和超参数的位置:

Dt+1=D*t-(2c·w-c)(2z·D*t-Dt);式中,t为当前迭代次数,D*t代表最佳超参数位置向量,Dt表示当前超参数位置向量,Dt+1表示下一次迭代超参数位置向量;

步骤3.2.4.重复以上迭代过程,直到当前迭代次数t达到最大迭代次数T2max,得到灰狼算法优化后的XGBoost学情预测模型超参数向量B;

步骤3.3.综合步骤3.1中XGBoost学情预测模型超参数向量A以及步骤3.2中XGBoost学情预测模型超参数向量B,进一步得到XGBoost学情预测模型的最优超参数;

步骤3.3.1.XGBoost学情预测模型的超参数向量C的计算公式如下:

C=aA+bB,a+b=1,且a,b∈[0,1];

其中,a表示超参数向量A的权重系数,b表示超参数向量B的权重系数;

步骤3.3.2.参数a、b在[0,1]内以步长0.01取值,计算每个值对应的决定系数R2

决定系数R2的计算公式如下:

步骤3.3.3.返回使决定系数R2取得最大值的XGBoost学情预测模型的超参数向量C,将该超参数向量C作为XGBoost学情预测模型的最终超参数,模型训练完成;

步骤4.将测试集输入到训练好的XGBoost学情预测模型中进行成绩预测,得到成绩的预测值,然后通过均方根误差判断成绩的预测值和实际值的接近程度;

均方根误差RMSE的计算公式如下所示:

式中,V表示测试集中测试样本的数量;

若均方根误差的值小于预先设定误差阈值的大小,则XGBoost学情预测模型满足要求;

否则,重新随机划分训练集和测试集,或改变步骤2.1中初始化XGBoost学情预测模型的超参数的值,然后重新训练XGBoost学情预测模型,直至满足要求;

利用训练好的XGBoost学情预测模型进行学情预测,得到待预测学生成绩的预测值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111414779.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top