[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审

申请号：	201810294658.6	申请日：	2018-03-30
公开（公告）号：	CN108764271A	公开（公告）日：	2018-11-06
发明（设计）人：	王联军;徐勐;马平男;王有兵	申请（专利权）人：	杭州雅拓信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	施敬勃
地址：	310003 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型学习模型预测准确率样本样本集正样本预测预处理改进抽样数据多次循环目标变量学习数据样本标记应用模型负样本预测集误判申请抽样学习返回
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于样本比率悬殊时改进模型预测准确率的方法和系统。包括1)学习数据的预处理：通过供模型学习的所有数据进行抽样，将得到的抽样数据集与目标变量为1的数据拼成新的供模型学习的样本集；2)建立学习模型：将供模型学习的样本集做为模型学习集，供模型学习，得到学习好的模型；3)应用模型：将预测集变量放入学习好的模型，进行预测，获得样本预测label值；4)返回步骤1)进行多次循环，并标记每次循环获得的预测label值；5)重新标记：当n个label值中为1的占比大于β时将该样本标记为1，确认为正样本。本申请能排除偶然性将负样本误判为正样本的情况，从而提高改进模型预测准确率。

技术领域

本发明涉及机器学习模型技术领域，特别是涉及基于样本比率悬殊时改进模型预测准确率的方法和系统。

背景技术

随着人工智能井喷式发展，机器学习是人工智能的核心，是使计算机实现智能化、自动化的根本途径，算法做为人工智能领域的重要性也越来越被人认可。

分类器是数据挖掘中对样本进行分类的方法的统称，一般包含逻辑回归、决策树、随机森林、svm、神经网络、Xgboost等算法，分类器的实施会经过以下几个步骤：选定样本，该样本包含正样本和负样本，将所有样本分成训练样本和测试样本两部分。在训练样本上执行分类器算法，生成分类模型。在测试样本上执行分类模型，生成预测结果。根据预测结果，计算必要的评估指标，评估分类模型的性能。

但是学习数据存在一定的随机性时，所学的模型会有一定的差异性，故而当样本的正负比例小于10％，即当正样本在全体样本中所占比例比较小时，会导致模型结果中存在一些偶然性将负样本误判为正样本的情况，导致工作中所追求的预测准确率一直处于较低的水准上，不利于工作顺利开展。

因此，基于正负样本比率悬殊时如何有效提高分类模型预测准确率是本领域技术人员急需解决的一个关键技术问题。

发明内容

有鉴于此，有必要提供一种基于正负样本比率悬殊时改进模型预测准确率的方法，当正样本在全体样本中所占比例小于10％时，能够显著降低偶然性将负样本误判为正样本的情况，从而提升改进分类模型预测准确率和稳定性。

为了解决上述技术问题，本申请公开了一种基于正负样本比率悬殊时改进模型预测准确率的方法，包括以下步骤：

1)学习数据的预处理：通过供模型学习的所有数据进行抽样，将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集；

2)建立学习模型：将步骤1)所得新的供模型学习的样本集做为模型学习集，供模型学习，得到学习好的模型model；

3)应用模型：将预测集变量放入学习好的模型model，进行预测，获得每个样本的预测label值；

4)返回步骤1)进行多次循环，并标记每次循环获得的预测label值， n次循环后获得：label-1,label-2,……,label-n；

5)重新标记：汇总每个样本的n个label；预先设定阈值β，当n个label 值中为1的占比大于β时将该样本标记为1，最终确认为正样本。

其中准确率(P)的计算公式为：准确率＝正确预测的样本数/样本总数* 100％。

结合第一方面，在一种可能的实施方式中，步骤1)所述新的供模型学习的样本集获得方法为：