[发明专利]一种基于交叉验证的单模型融合方法在审

申请号：	201910585601.6	申请日：	2019-07-01
公开（公告）号：	CN110288042A	公开（公告）日：	2019-09-27
发明（设计）人：	段强;李锐;于治楼;安程治	申请（专利权）人：	山东浪潮人工智能研究院有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	250100 山东省济南市高新***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	交叉验证单模型模型融合融合数据预处理机器学习模型比较模型训练泛化性数据集预测鲁棒挖掘
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于交叉验证的单模型融合方法，其特征在于，包括以下步骤：

第一步，获取原始数据，包括训练集和测试集；

第二步，使用机器学习的数据处理方法进行数据清洗和数据预处理；

第三步，根据需求进行特征构造，将已有的数据转换为特征向量或矩阵，供模型学习；

第四步，将训练集进行k折划分，k为3、5或10；

第五步，通过k折交叉验证得到k个中间模型，并对测试集进行预测；

第六步，通过全量数据训练第k+1个模型，并对测试集进行预测；

第七步，将预测结果根据实际场景及需求进行投票或加权平均得到最终结果。

2.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第一步中，原始数据包括一个用于训练的带标签数据集和一个不带标签的测试数据集。

3.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第二步中，数据清洗过程包括文本向量化，异常值处理和数据平滑处理。

4.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第四步中，在构建出合适的特征之后，进行交叉验证的准备工作，根据标签信息的分层等分stratified k-fold将训练集划分成k份，交叉验证过程中的k被称为折，即k折交叉验证。

5.根据权利要求4所述的基于交叉验证的单模型融合方法，其特征在于：所述根据标签信息的分层等分stratified k-fold的原理是根据标签信息，从每个标签所对应数据集合中进行划分，最后将多个标签划分出来的数据集合并到一起，进而保证每个划分出来的数据集各个标签的比例都与原数据集的标签比例一致。

6.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第五步中，划分出数据集之后使用交叉验证的方法训练模型，通过k折交叉验证得到的k个中间模型，利用每一个中间模型对测试集进行预测，得到k个预测结果，并将结果保留。

7.根据权利要求6所述的基于交叉验证的单模型融合方法，其特征在于：所述第六步中，使用第五步中得到的k个中间模型对全部训练集进行建模，再对测试集进行预测，得到第k+1个预测结果。

8.根据权利要求7所述的基于交叉验证的单模型融合方法，其特征在于：所述第七步中，对于分类问题采用投票的方法得到最终结果；对于回归问题采用取均值或者加权平均的方法得到最终结果。

9.根据权利要求8所述的基于交叉验证的单模型融合方法，其特征在于：对于分类问题中的二分类问题，通过控制投票的票数来均衡测试集预测结果的比例，使之贴近特定的分布；对于多分类问题，则以票数多的为准；由于中间模型得到的结果不如全量训练集得到的模型得到的结果数据全面，因而对于回归问题，在中间模型的预测结果中设置较小的权值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司，未经山东浪潮人工智能研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910585601.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于深度学习的中草药分类建模方法及系统
下一篇：基于向量夹角的异常数据检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于交叉验证的单模型融合方法在审

专利文献下载