[发明专利]基于特征选择的模型检测方法在审
申请号: | 201510811301.7 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105447519A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 何鸣;杨琪;吴鹏越 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;罗朗 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 选择 模型 检测 方法 | ||
技术领域
本发明涉及一种数据挖掘、机器学习、大数据、云计算、互联网等技术领域,特别是涉及一种基于特征选择的模型检测方法。
背景技术
随着互联网的快速发展,积累了海量的数据,同时也给数据分析和数据挖掘带来了诸多问题:
数据量大,维度高:一个数据集由实例数P和特征数N,两者结合在一起给算法带来巨大的计算量;
数据变化频繁:互联网快速的变化也产生了变化的数据,这就需要重新生成数据模型;
噪声数据和缺失数据:互联网数据缺乏严格的约定,数据参差不齐,一些算法对噪声数据敏感,难以得到稳定的数据模型。
发明内容
本发明要解决的技术问题是为了克服现有技术中互联网数据计算量大、数据变化频繁以及难以得到稳定的数据模型的缺陷,提供一种基于特征选择的模型检测方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种基于特征选择的模型检测方法,其特点在于,包括以下步骤:
S1、对原始数据集进行随机分割,并将分割后的数据放入原始训练集、验证集和测试集中;
S2、采用原始训练集训练一个模型;
S3、利用所述模型预测原始训练集和验证集,分别得到原始训练集的预测误差和验证集的预测误差;
S4、删除原始训练集中的第j个特征以得到一个新的训练集,利用所述模型预测所述新的训练集,得到新的训练集的预测误差,其中j的初始值为1;
S5、将j+1赋值为j,并返回步骤S4,直至j取值为C时执行步骤S6,其中C表示原始数据集的特征数;
S6、计算C组新的训练集的预测误差与原始训练集的预测误差之间的距离;
S7、对计算出的距离进行排序,并查找G个最小距离所对应的特征,其中G表示删除粒度,G为自然数,且1≤G≤C-1;
S8、将查找出的特征的序号保存至删除特征序列中,并在原始训练集和验证集中删除查找出的特征;
S9、将C-G赋值为C,并返回步骤S2,直至C≤G时执行步骤S10;
S10、根据验证集的预测误差得到一个最小误差值所对应的序号K,将删除特征序列中的前K-1个特征从原始训练集和测试集中删除;
S11、采用删除前K-1个特征后的训练集训练一个新的模型,并利用新的模型预测删除前K-1个特征后的测试集,以得到测试集的预测误差。
较佳地,步骤S7中按照从大到小的顺序对计算出的距离进行排序。
较佳地,步骤S2和步骤S11中采用支持向量机训练模型。
较佳地,步骤S3中原始训练集的预测误差和验证集的预测误差均为均方根误差。
本发明的积极进步效果在于:本发明通过特征选择有效去除噪声特征和冗余特征,提高分类的正确性,提高模型的泛化能力,对解决变化较大的数据集合的学习问题很有帮助;本发明特征选择的结果趋于稳定,保证了结果的有效性,嵌入式特征选择为后续的数据挖掘泛化能力提供了保证,可以用户自定义算法运行速度,解决高维度数据的嵌入式特征提取计算量大的问题,在没有损害原始数据集的泛化能力的条件下,同时在对回归误差略有降低的情况下,大大精简了原始数据集的规模。
附图说明
图1为本发明的较佳实施例的基于特征选择的模型检测方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
如图1所示,本发明的基于特征选择的模型检测方法包括以下步骤:
步骤101、对原始数据集进行随机分割,并将分割后的数据放入原始训练集、验证集和测试集中;
步骤102、采用原始训练集训练一个模型;
步骤103、利用所述模型预测原始训练集和验证集,分别得到原始训练集的预测误差和验证集的预测误差;
步骤104、删除原始训练集中的第j个特征以得到一个新的训练集,利用所述模型预测所述新的训练集,得到新的训练集的预测误差,其中j的初始值为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510811301.7/2.html,转载请声明来源钻瓜专利网。