[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审
申请号: | 201810294658.6 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108764271A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 王联军;徐勐;马平男;王有兵 | 申请(专利权)人: | 杭州雅拓信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 施敬勃 |
地址: | 310003 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型学习 模型预测 准确率 样本 样本集 正样本 预测 预处理 改进 抽样数据 多次循环 目标变量 学习数据 样本标记 应用模型 负样本 预测集 误判 申请 抽样 学习 返回 | ||
本申请公开了一种基于样本比率悬殊时改进模型预测准确率的方法和系统。包括1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成新的供模型学习的样本集;2)建立学习模型:将供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型;3)应用模型:将预测集变量放入学习好的模型,进行预测,获得样本预测label值;4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值;5)重新标记:当n个label值中为1的占比大于β时将该样本标记为1,确认为正样本。本申请能排除偶然性将负样本误判为正样本的情况,从而提高改进模型预测准确率。
技术领域
本发明涉及机器学习模型技术领域,特别是涉及基于样本比率悬殊时改进模型预测准确率的方法和系统。
背景技术
随着人工智能井喷式发展,机器学习是人工智能的核心,是使计算机实现智能化、自动化的根本途径,算法做为人工智能领域的重要性也越来越被人认可。
分类器是数据挖掘中对样本进行分类的方法的统称,一般包含逻辑回归、决策树、随机森林、svm、神经网络、Xgboost等算法,分类器的实施会经过以下几个步骤:选定样本,该样本包含正样本和负样本,将所有样本分成训练样本和测试样本两部分。在训练样本上执行分类器算法,生成分类模型。在测试样本上执行分类模型,生成预测结果。根据预测结果,计算必要的评估指标,评估分类模型的性能。
但是学习数据存在一定的随机性时,所学的模型会有一定的差异性,故而当样本的正负比例小于10%,即当正样本在全体样本中所占比例比较小时,会导致模型结果中存在一些偶然性将负样本误判为正样本的情况,导致工作中所追求的预测准确率一直处于较低的水准上,不利于工作顺利开展。
因此,基于正负样本比率悬殊时如何有效提高分类模型预测准确率是本领域技术人员急需解决的一个关键技术问题。
发明内容
有鉴于此,有必要提供一种基于正负样本比率悬殊时改进模型预测准确率的方法,当正样本在全体样本中所占比例小于10%时,能够显著降低偶然性将负样本误判为正样本的情况,从而提升改进分类模型预测准确率和稳定性。
为了解决上述技术问题,本申请公开了一种基于正负样本比率悬殊时改进模型预测准确率的方法,包括以下步骤:
1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集;
2)建立学习模型:将步骤1)所得新的供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型model;
3)应用模型:将预测集变量放入学习好的模型model,进行预测,获得每个样本的预测label值;
4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值, n次循环后获得:label-1,label-2,……,label-n;
5)重新标记:汇总每个样本的n个label;预先设定阈值β,当n个label 值中为1的占比大于β时将该样本标记为1,最终确认为正样本。
其中准确率(P)的计算公式为:准确率=正确预测的样本数/样本总数* 100%。
结合第一方面,在一种可能的实施方式中,步骤1)所述新的供模型学习的样本集获得方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州雅拓信息技术有限公司,未经杭州雅拓信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810294658.6/2.html,转载请声明来源钻瓜专利网。