[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审
| 申请号: | 201810294658.6 | 申请日: | 2018-03-30 |
| 公开(公告)号: | CN108764271A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 王联军;徐勐;马平男;王有兵 | 申请(专利权)人: | 杭州雅拓信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 施敬勃 |
| 地址: | 310003 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型学习 模型预测 准确率 样本 样本集 正样本 预测 预处理 改进 抽样数据 多次循环 目标变量 学习数据 样本标记 应用模型 负样本 预测集 误判 申请 抽样 学习 返回 | ||
1.一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,包括以下步骤:
1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集;
2)建立学习模型:将步骤1)所得新的供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型model;
3)应用模型:将预测集变量放入学习好的模型model,进行预测,获得每个样本的预测label值;
4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值,n次循环后获得:label-1,label-2,……,label-n;
5)重新标记:汇总每个样本的n个label;预先设定阈值β,当n个label值中为1的占比大于β时将该样本标记为1,最终确认为正样本。
2.根据权利要求1所述的一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,步骤1)所述新的供模型学习的样本集获得方法为:
假设供模型学习的所有数据study_data一共有m条,其中目标变量为0的数据study_data_0有m0条;目标变量为1的数据study_data_1有m1条,且m0/m1远大于10;则对study_data_0进行无放回的m1次抽样,获得一个样本量为m1大小的抽样数据集study_data_sample_0;将study_data_sample_0和study_data_1拼成一个新的供模型学习的样本集new_study_data。
3.根据权利要求1所述的一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,步骤2)中所述模型为逻辑回归、决策树、随机森林、svm、神经网络、Xgboost中一种或者任意两种组合。
4.根据权利要求1所述的一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,步骤5)中所述阈值β为90%-95%。
5.根据权利要求4所述的一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,所述阈值β为95%。
6.一种基于正负样本比率悬殊时改进模型预测准确率的系统,其特征在于,包括学习数据的预处理模块、建立学习模型模块、应用模型模块、多次循环模块和重新标记模块;
所述学习数据的预处理模块,用于通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集;
所述建立学习模型模块,用于将所述学习数据的预处理模块中所得新的供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型model;
所述应用模型模块,用于将预测集变量放入学习好的模型model,进行预测,获得每个样本的预测label值;
所述多次循环模块,用于返回所述学习数据的预处理模块进行多次循环,并标记每次循环获得的预测label值,n次循环后获得:label-1,label-2,……,label-n;
所述重新标记模块,用于汇总每个样本的n个label;预先设定阈值β,当n个label值中为1的占比大于β时将该样本标记为1,最终确认为正样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州雅拓信息技术有限公司,未经杭州雅拓信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810294658.6/1.html,转载请声明来源钻瓜专利网。





