[发明专利]一种基于机器学习的企业劳资纠纷风险预测方法在审
申请号: | 201910861227.8 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110942171A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 刘驰;聂延磊;肖骥;李小俊;尤加辉;王延凯 | 申请(专利权)人: | 中电科新型智慧城市研究院有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q10/10;G06Q50/18;G06N20/00 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 黄娟 |
地址: | 518000 广东省深圳市福田区华富*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 企业 劳资纠纷 风险 预测 方法 | ||
1.一种基于机器学习的企业劳资纠纷风险预测方法,其特征在于,包括以下步骤:
S1:相关数据探索,探索收集包括互联网区的企业信用数据、企业检查数据、企业仲裁数据及各个委办局业务数据与劳资纠纷事件存在相关性的数据素材,整理获取发生劳资纠纷的企业与正常运营的若干企业实例;梳理出与劳资纠纷事件相关的因素;
S2:建立劳资纠纷黑白样本库;通过统计过去发生的企业劳资纠纷案件,将现有的企业划分为劳资纠纷黑样本与白样本:劳资纠纷黑样本为:在样本库中,近两年有过劳资纠纷案例的企业,或是有过劳动冲裁案例企业;劳资纠纷白样本为:在样本库中,近两年没有产生过劳资纠纷案例的企业,且没有产生过劳动冲裁案例企业;将现有样本划分为训练集与测试集,保证两个集合中均包含黑样本与白样本,且两个集合中黑白样本成分占比类似;若训练集中黑白样本比例差异大于预定值,则对训练集中黑样本进行过采样,至其内部黑白样本比例接近或等于1:1;
S3:指标分箱,通过对劳资纠纷相关变量进行数据处理,将类别类变量、定性类变量与连续数值类变量均转化为离散定量分箱指标,以进行量化模型构建;
S4:数据标准化;对S3中获取的评价指标数据进行数据标准化,将定性指标或定量指标的数据处理并纳入[0.001,1]区间内;
对不同的指标根据箱内的劳资纠纷发生比例排序;对于分箱总数为m的指标i,当实例的该指标属性处于排名第j名的分箱内时,该实例在指标i上打分qi为:
S5:筛除低预测能力指标;基于各项指标分箱情况,计算各评估指标的IV值,剔除掉IV值小于阈值变量指标,最终获得与劳资纠纷相关度较高的若干评价指标;IV值为信息价值,代表单一指标对劳资纠纷概率的预测能力;
S6:剔除高相关性指标;
基于S5中获取的评价指标,将高相关性评价指标集合进行化简剔除,只保留一个大于阈值的IV值,以简化模型中的评价指标体系;
S7:构建逻辑回归模型,具体步骤如下:
S71:采用Sigmoid函数构造预测函数:
其中,x=[x0,x1,x2,x3,,,……xn],表示单个实例所获取的n项指标数值;θ=[θ0,θ1,θ2,θ3,,,……θn],表示需优化的n项指标的权重;hθ(x)表示在当前指标权重与数值下企业劳资纠纷发生概率;
S72:构造损失函数Jθ(X):
基于最大似然估计推导,对单个样本构造Cost函数:
其中y代表样本发生劳资纠纷情况:y=1代表样本发生劳资纠纷,y=0代表企业运营正常;
选取m个企业样本作为训练集合,构造损失函数Jθ(X):
S73:采用梯度下降法更新模型权重指数,其中第j项权重指标更新步骤如下:
其中α代表学习率,控制梯度下降步长,持续迭代权重系数,直到损失函数满足阈值要求;输出最优权重指标与劳资纠纷预测模型;
S8:对预测模型进行检验;
采用模型对测试集中的劳资纠纷发生概率进行预测,设置三挡企业劳资纠纷风险级别,分别是高风险、中风险和低风险;其中,高风险:概率大于等于70%;中风险:概率大于等于50%且小于等于70%;低风险:概率小于50%;
采用测试集对预测模型检验其准确率,具体评价指标是根据预测为模型对劳资纠纷事件的查准率,查准据具体计算方法为:
模型查准率=(高风险判定下发生劳资纠纷事件数)/(高风险总数);
最终,根据检验结果输出模型或调整模型指标优化原有模型。
2.根据权利要求1所述的基于机器学习的企业劳资纠纷风险预测方法,其特征在于,在S1中,包括但不限于企业营业终止情况、企业经营期限、企业所有制、企业裁员率、企业历史劳动仲裁、企业法务纠纷、相关企业举报信息、企业法人变更情况以及企业行政处罚信息因素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科新型智慧城市研究院有限公司,未经中电科新型智慧城市研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910861227.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理