[发明专利]一种基于CART决策树的大学生就业预测方法在审
申请号: | 202111608264.1 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114330716A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 党向盈;鲍蓉;姜代红;徐玮玮;佟恒乐;王晓雪 | 申请(专利权)人: | 徐州工程学院 |
主分类号: | G06N5/00 | 分类号: | G06N5/00;G06Q10/04;G06Q50/20 |
代理公司: | 徐州市三联专利事务所 32220 | 代理人: | 何君 |
地址: | 221000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cart 决策树 大学生 就业 预测 方法 | ||
1.一种基于CART决策树的大学生就业预测方法,其特征在于,该方法包括以下步骤:
S1:大学生信息数据的预处理;
收集大学生原始数据,构建学生数据基本属性集合,并对每个数据进行规范化处理,形成规范的数据集,大学生数据基本属性集合记为N={n1,n2,…,nc},其中ni为第i个基本属性,c为基本属性的个数;
S2:确定影响大学生就业预测目标的相关属性;
设大学生就业预测目标属性集合为Y={y1,y2,...y|Y|},其中|Y|为预测目标属性的取值个数,yu为预测目标属性值;设N中元素ni和Y中元素yu的皮尔森相关系数为λi,u;
设置皮尔森相关系数阈值为h,当λi,u≥h,定义ni与Y相关;反之,定义ni与Y不相关;基于上面的方法,统计与Y相关的大学生基本属性;将影响大学生就业目标Y的相关属性记为特征向量X={x1,x2,…,xm},即为,其中m为特征变量的个数,m≤c;其中对于xi的取值有Ki类,记为
S3:基于CART决策树构建大学生就业预测模型;
设大学生基本属性数据信息有α组,将其中的r组数据设为训练集S,剩余的α-r组数据设为测试集;训练集S用于构建就业预测模型,测试集用于验证就业测试模型的准确性;
在训练集S中计算的基尼系数对训练集S中的大学生基本属性进行基尼系数求解,设基尼系数的阈值为l,然后基于构建大学生就业CART决策树,即就业预测模型。
2.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法,其特征在于:所述的步骤S2中计算Y和N的皮尔森相关系数λi,u的方法为:
其中,cov(ni,yu)为ni与yu协方差,和分别为ni与yu的标准差。
3.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法,其特征在于:所述的步骤S3中,将70%的数据设为训练集,30%的数据设为测试集。
4.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法,其特征在于:所述的步骤S3中,对训练集S中的大学生基本属性进行基尼系数求解的方法为:
当xi取值为时,记为当xi取值不为时,记为由此可以将S分为和两部分,对应训练集的数目分别为和在S,当时,Y取值yu的概率为当时,Y取值yu的个数为那么,的基尼系数可以表示为:
同理的基尼系数可以表示为:
由和可知,对于S,V(xi)取的基尼系数可以表示为:
5.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法,其特征在于:所述的步骤S3中,基于构建大学生就业CART决策树的方法为:
设基尼系数的阈值为l
输入:S,X={x1,x2,…,xm},l,m;
输出:决策树T;
Step1:计算如果则T为一颗单节点树;否则转Step2;
Step2:对于求解它们的最小值,记最小值为取为二叉树的切分点;
Step3:根据S中xi取值是否等于将S分为两个子集和并将和分配到两个子节点中,如果子节点基尼系数小于l,则该子节点为一个叶节点,如果两个子节点均为叶节点,则返回决策树T,否则进行Step4;
Step4:对于非叶子节点,分别在令和令递归调用Step1到Step4,生成二叉决策树T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州工程学院,未经徐州工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111608264.1/1.html,转载请声明来源钻瓜专利网。