[发明专利]一种基于改进的gcForest员工离职预测方法在审

专利信息
申请号: 202111316950.1 申请日: 2021-11-09
公开(公告)号: CN114048805A 公开(公告)日: 2022-02-15
发明(设计)人: 汪澜;刘桢泽 申请(专利权)人: 辽宁工程技术大学
主分类号: G06K9/62 分类号: G06K9/62;G06Q10/04;G06Q10/10
代理公司: 北京百年育人知识产权代理有限公司 11968 代理人: 劳锦花
地址: 125100 辽宁省葫芦岛市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 gcforest 员工 离职 预测 方法
【权利要求书】:

1.一种基于改进的gcForest员工离职预测方法,其特征在于,所述员工离职预测方法的过程为:

(1)建立算法基础

GcForest模型,其分为两个阶段:多粒度扫描和级联森林,多粒度扫描阶段将原始特征进行转化为类别概率向量作为输入特征,输入特征在级联森林阶段经过多个级联层得出预测结果;

在级联森林结构中,每一层都包含两种森林:随机森林和极端森林,每个随机森林和极端森林内部由若干个随机树组成,由多粒度扫描结构处理得到的概率向量经过第一层的级联结构的处理输入到下一层,每层级联结构处理完毕都会在验证集上得到预测结果,如果某一层的预测结果没有明显提升,就不在继续训练,并最终得出预测结果;

AdaBoost,AdaBoost算法通过对同一个训练样本训练出不同的弱分类器,然后,将这些弱分类器通过一定的策略组合之后,最终合成一个强分类器来实现;

Catboost算法,CatBoot是对于梯度提升决策树的一种改进算法;

改进gcForest算法,通过在级联部分加入CatBoost模型以及在末尾连接AdaBoost;

(2)数据预处理

选取数据集;

对无关的数据进行清洗,首先根据热图的显示结果分析发现,EmployeeNumber,Over18,StandardHours三个特征为模型训练的无关特征,故选择删除;

对于包括BusinessTravel,Department,EducationField等7个字符串形式的特征变量进行数字化处理;

对于包括Age,DistanceFromHome,MonthlyIncome等10个连续的特征变量进行等距离离散化处理,最终共划分为50个特征变量;

对于包括BusinessTravel,Department,Education等17个离散的数据特征采用独热编码处理,最终共划分66个特征变量;

对处理后的特征变量进行合并,对合并之后的116个特征采用方差选择法VarianceThreshold进行特征选择,总共选取48个特征作为模型的输入数据。

采用数据随机划分的方式,将模型的输入数据划分为80%的训练数据和20%的测试数据用于模型的测试;

(3)实验及结果分析

采用准确率、精确率、召回率衡量模型的分类性能以外,还采用AUC值来衡量模型的分类性能,TP为离职员工分类正确的个数,FN为离职员工分类错误的个数,TN代表未离职员工分类正确的个数,FP代表未离职员工分类错误的个数,一般可以用混淆矩阵来描述TP、TN、FP、FN,

准确性Accuracy的公式为:

精确率Precision的公式为:

召回率Recal的公式为:

精准率和召回率采用加权平均weighted avg参数来进行模型的对比实验,利用gcForest模型具有可解释性的特点对于输入的特征进行重要性排序,得出影响员工离职因素的重要性排序,员工离职因素根据重要性由大到小分别为:月收入、年龄、总工龄、离家距离等。

2.根据权利要求1所述的一种基于改进的gcForest员工离职预测方法,其特征在于,所述数据预处理中,共1100条员工数据,每个员工数据包含31个特征,将数据类型分为整型和字符串型。

3.根据权利要求1所述的一种基于改进的gcForest员工离职预测方法,其特征在于,所述实验及结构分析中,数据集中未离职样本个数为922个,离职样本个数为178个,为不平衡样本。

4.根据权利要求1所述的一种基于改进的gcForest员工离职预测方法,其特征在于,所述AUC用于评价模型二分类的性能。

5.根据权利要求1所述的一种基于改进的gcForest员工离职预测方法,其特征在于,所述多粒度扫描就是利用滑动窗口对原始数据进行扫描,扫描的得到的数据经过所述随机森林和完全随机森林两种结构模型从而得到所述级联森林的输入数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111316950.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top