[发明专利]一种基于大数据的学情预测方法在审
申请号: | 202111414779.8 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114169595A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 王鑫宁;赵宇奔 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/20;G06K9/62;G06N3/00;G06N20/20 |
代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 预测 方法 | ||
1.一种基于大数据的学情预测方法,其特征在于,包括如下步骤:
步骤1.学情特征选择与数据预处理;
从学校学生数据共享平台获取n个学生的学习和一卡通的各项数据,选取用于进行学情预测的学情特征,然后对学情特征进行预处理,得到对应于每个学生的学情样本;
所述学情特征包括性别,籍贯,以往课程成绩,奖学金获得情况,图书馆进馆情况,早、中、晚消费时间,心理健康状况,所预测科目教工编号以及所预测科目成绩;
经过学情特征选取与数据预处理得到由n个学情样本组成的数据集,将数据集中70%的学情样本作为训练集用于模型训练,将数据集中30%的学情样本作为测试集用于模型测试;
步骤2.搭建XGBoost学情预测模型;
步骤2.1.初始化XGBoost学情预测模型的超参数;
初始化的超参数包括对学情特征进行分割的树的最大深度Dmax、学习率eta、学情特征的最小划分损失阈值Gmin以及控制模型复杂度的超参数λ和γ;
步骤2.2.设置经验损失函数,计算训练集中训练样本在当前树的目标函数Obj:
其中,U表示训练集中训练样本的数量;
公式(1)等式右边第一项为经验损失函数,yi表示预测科目的真实成绩,表示前k-1棵树对该科成绩的的预测值之和,fk(xi)表示建立第k棵树预测第i个样本的成绩;
公式(1)等式右边的第二项以及第三项为控制XGBoost学情预测模型复杂度的正则化函数,其中,参数T为叶子结点数,wj为第j个叶子结点值;
步骤2.3.通过泰勒展开近似变换公式(1),得到如公式(2)所示的目标函数;
其中,Ij为落入第j个叶子结点的训练样本的集合;
gi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的一阶偏导数;
hi为训练集中第i个训练样本的损失函数对第i个训练样本的预测成绩的二阶偏导数;
表示前k-1棵树对该科成绩的预测值之和;
l表示损失函数,用于度量XGBoost学情预测模型的预测值与实际值之间的差异;
表示真实值和前k-1棵树累加的预测值的损失函数;
的计算公式为:
步骤2.4.依据公式(2)通过贪婪算法建立树,每棵树都得到一个预测值,将每棵树的预测值累加得到成绩预测值,利用贪婪算法不断建树,使成绩预测值逼近真实值;
贪婪算法建立树的具体过程如下:
步骤2.4.1.从深度为0的树开始,对每个叶子结点枚举所有可能的学情特征;
步骤2.4.2.在枚举过程中,用分裂前的目标函数减去分裂后的目标函数,得到信息增益Gain,如公式(3)所示,此处,目标函数即公式(2)示出的目标函数;
其中,GL为左子树中训练样本的一阶导数之和,HL为左子树中训练样本的二阶导数之和,GR为右子树中训练样本的一阶导数之和,HR为右子树中训练样本的二阶导数之和;
步骤2.4.3.将训练集中所有训练样本按照升序进行排列,比较得到分裂结点处信息增益Gain最大的最佳分裂点,并将其记录为最大增益;
步骤2.4.4.选择增益最大的学情特征为分裂特征,用该特征的最佳分裂点作为分裂位置,在该结点上分裂出左右两个新的叶结点,并为每个新结点关联对应的训练样本集;
步骤2.4.5.重复以上步骤,直到最大增益Gain为预先设定的最小划分损失阈值Gmin,则当前树建立完毕,得到弱分类器,并更新强分类器,进入下一轮迭代;
步骤3.对XGBoost学情预测模型的超参数进行调优;
步骤3.1.利用鲸鱼优化算法寻找XGBoost学情预测模型的最优超参数,过程如下:
步骤3.1.1.初始化鲸鱼种群数量M,随机产生M个超参数的位置;
设置最大迭代次数为T1max;
步骤3.1.2.设置适应度函数为决定系数R12,决定系数R12的计算公式如下:
式中,为实际成绩的平均值,表示成绩预测值;
利用上述决定系数R12计算M个XGBoost学情预测模型的超参数的适应度,并根据适应度值的大小排序,选取适应度最优的超参数为最优位置;
步骤3.1.3.更新下一代搜索代理的位置,公式如下:
Dd+1=D*d+ebp·cos(2πp)·|D*d-Dd|;
式中,d表示当前迭代次数,Dd表示第d次迭代的位置向量,D*d表示目前为止最佳位置向量,Dd+1表示第d+1次迭代的位置向量,b和p为搜寻轨迹参数;
步骤3.1.4.重复以上迭代过程,直到迭代次数k达到最大迭代次数T1max,则得到鲸鱼算法优化后的XGBoost学情预测模型的超参数向量A;
步骤3.2.利用灰狼优化算法寻找XGBoost学情预测模型的最优超参数;
步骤3.2.1.随机产生数量为N的灰狼种群作为XGBoost学情预测模型的超参数群;
设置灰狼优化算法的相关参数,包括收敛因子c、系数w和z;
设置适应度函数为决定系数R22和最大迭代次数T2max;决定系数R22的公式如下:
步骤3.2.2.计算每个超参数的适应度,并决定α、β和δ三个适应度最好的搜索代理;
步骤3.2.3.依据下式更新适应度和超参数的位置:
Dt+1=D*t-(2c·w-c)(2z·D*t-Dt);式中,t为当前迭代次数,D*t代表最佳超参数位置向量,Dt表示当前超参数位置向量,Dt+1表示下一次迭代超参数位置向量;
步骤3.2.4.重复以上迭代过程,直到当前迭代次数t达到最大迭代次数T2max,得到灰狼算法优化后的XGBoost学情预测模型超参数向量B;
步骤3.3.综合步骤3.1中XGBoost学情预测模型超参数向量A以及步骤3.2中XGBoost学情预测模型超参数向量B,进一步得到XGBoost学情预测模型的最优超参数;
步骤3.3.1.XGBoost学情预测模型的超参数向量C的计算公式如下:
C=aA+bB,a+b=1,且a,b∈[0,1];
其中,a表示超参数向量A的权重系数,b表示超参数向量B的权重系数;
步骤3.3.2.参数a、b在[0,1]内以步长0.01取值,计算每个值对应的决定系数R2;
决定系数R2的计算公式如下:
步骤3.3.3.返回使决定系数R2取得最大值的XGBoost学情预测模型的超参数向量C,将该超参数向量C作为XGBoost学情预测模型的最终超参数,模型训练完成;
步骤4.将测试集输入到训练好的XGBoost学情预测模型中进行成绩预测,得到成绩的预测值,然后通过均方根误差判断成绩的预测值和实际值的接近程度;
均方根误差RMSE的计算公式如下所示:
式中,V表示测试集中测试样本的数量;
若均方根误差的值小于预先设定误差阈值的大小,则XGBoost学情预测模型满足要求;
否则,重新随机划分训练集和测试集,或改变步骤2.1中初始化XGBoost学情预测模型的超参数的值,然后重新训练XGBoost学情预测模型,直至满足要求;
利用训练好的XGBoost学情预测模型进行学情预测,得到待预测学生成绩的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111414779.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置