[发明专利]一种基于交叉验证的单模型融合方法在审
申请号: | 201910585601.6 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110288042A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 段强;李锐;于治楼;安程治 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交叉验证 单模型 模型融合 融合 数据预处理 机器学习 模型比较 模型训练 泛化性 数据集 预测 鲁棒 挖掘 | ||
1.一种基于交叉验证的单模型融合方法,其特征在于,包括以下步骤:
第一步,获取原始数据,包括训练集和测试集;
第二步,使用机器学习的数据处理方法进行数据清洗和数据预处理;
第三步,根据需求进行特征构造,将已有的数据转换为特征向量或矩阵,供模型学习;
第四步,将训练集进行k折划分,k为3、5或10;
第五步,通过k折交叉验证得到k个中间模型,并对测试集进行预测;
第六步,通过全量数据训练第k+1个模型,并对测试集进行预测;
第七步,将预测结果根据实际场景及需求进行投票或加权平均得到最终结果。
2.根据权利要求1所述的基于交叉验证的单模型融合方法,其特征在于:所述第一步中,原始数据包括一个用于训练的带标签数据集和一个不带标签的测试数据集。
3.根据权利要求1所述的基于交叉验证的单模型融合方法,其特征在于:所述第二步中,数据清洗过程包括文本向量化,异常值处理和数据平滑处理。
4.根据权利要求1所述的基于交叉验证的单模型融合方法,其特征在于:所述第四步中,在构建出合适的特征之后,进行交叉验证的准备工作,根据标签信息的分层等分stratified k-fold将训练集划分成k份,交叉验证过程中的k被称为折,即k折交叉验证。
5.根据权利要求4所述的基于交叉验证的单模型融合方法,其特征在于:所述根据标签信息的分层等分stratified k-fold的原理是根据标签信息,从每个标签所对应数据集合中进行划分,最后将多个标签划分出来的数据集合并到一起,进而保证每个划分出来的数据集各个标签的比例都与原数据集的标签比例一致。
6.根据权利要求1所述的基于交叉验证的单模型融合方法,其特征在于:所述第五步中,划分出数据集之后使用交叉验证的方法训练模型,通过k折交叉验证得到的k个中间模型,利用每一个中间模型对测试集进行预测,得到k个预测结果,并将结果保留。
7.根据权利要求6所述的基于交叉验证的单模型融合方法,其特征在于:所述第六步中,使用第五步中得到的k个中间模型对全部训练集进行建模,再对测试集进行预测,得到第k+1个预测结果。
8.根据权利要求7所述的基于交叉验证的单模型融合方法,其特征在于:所述第七步中,对于分类问题采用投票的方法得到最终结果;对于回归问题采用取均值或者加权平均的方法得到最终结果。
9.根据权利要求8所述的基于交叉验证的单模型融合方法,其特征在于:对于分类问题中的二分类问题,通过控制投票的票数来均衡测试集预测结果的比例,使之贴近特定的分布;对于多分类问题,则以票数多的为准;由于中间模型得到的结果不如全量训练集得到的模型得到的结果数据全面,因而对于回归问题,在中间模型的预测结果中设置较小的权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910585601.6/1.html,转载请声明来源钻瓜专利网。