[发明专利]一种基于特征选择和集成算法的分类方法在审

申请号：	201810558775.9	申请日：	2018-06-01
公开（公告）号：	CN108921197A	公开（公告）日：	2018-11-30
发明（设计）人：	孙文;司华友;金厅;周佳勇;郑飘飘	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N99/00
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	王桂名
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据集学习器集成算法特征选择分类单个分类器不确定性分类结果概率集合特征计算信息增益平均法投票法准确率加权删除对称筛选概率学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于特征选择和集成算法的分类方法，其特征在于，包括以下步骤：(1)对于已有的数据集S，采用信息增益率和对称不确定性对数据集S的每个特征计算得分，设置阈值并对特征进行筛选，删除得分小于阈值的特征，形成新的数据集S’；(2)用多个学习器对选择特征后的数据集S’进行学习，调整学习器参数，采用调参后的学习器对未知数据u进行训练，计算未知数据u属于各个类别的概率集合，使用平均法和加权投票法对概率集进行集成计算，从而得到未知数据u应分类的类别。本发明从一定程度上降低了单个分类器造成的误差，提高了分类结果的准确率、召回率以及F1值。

技术领域

本发明涉及一种改进机器学习分类方法，更具体而言涉及一种基于特征选择和集成算法的改进分类方法。

背景技术

机器学习作为一门多领域的交叉学科，已经被广泛应用在数据挖掘、图像识别和人工智能等多个领域。简单地说，机器学习可以看作是通过定义算法，利用计算机对所提供的数据集进行分析发现规律，其过程主要是对从已知样本提取的特征数据进行训练生成模型，然后使用训练得到的模型对未知数据进行预测。

使用机器学习去预测未知数据主要可以分为两类任务：(1)分类：分类是指最终的结果的值是已知的离散值，对应将数据划分到对应类别的一个过程。其中分类问题又可分为二分类问题和多分类问题。(2)回归：回归主要是指最终的结果是连续值，对应将给定的数据对应到一个具体数值的过程。

特征选择是指在给定的特征数据中寻找有价值的特征来减少处理和分析的输入的一个过程，具体的说特征选择是在原始特征里得到一个子集的过程，是机器学习的一个重要组成部分。有时候对于得到的特征数据，并不确定是否每个特征都是训练模型需要的，或者不确定特征对于训练模型是否有用，或是需要对特征数据进行优化，因此特征的选择会直接影响预测的最终结果。

在使用机器学习算法对数据集执行分类任务时，传统方式是通过对多种算法进行尝试，从中寻找分类效果最好的算法。但是如果仅仅使用一种分类算法会产生一定的误差。集成学习是指通过某种结合策略将多个算法预测的结果进行结合来确定最后的分类的方式。通过将两种或多种算法结合，集成学习往往能够提高泛化能力，从而获得比使用单个学习器更好的效果。

目前的机器学习分类方法，还存在以下不足：

1、对于得到的特征数据，不确定每个特征是否都是训练模型需要的，如果采用得到的全部特征数据，会产生过拟合的情况。

2、在使用机器学习算法对数据执行分类任务时，如果只采用单个分类算法，会产生一定的误差，导致陷入局部最优解。

发明内容

本发明的目的在于针对现有技术中存在的缺陷，提出基于特征选择和集成算法的分类方法。为了达到目的，本发明提供的技术方案为：

本发明涉及的一种基于特征选择和集成算法的分类方法，包括以下步骤：

(1)对于已有的数据集S，采用信息增益率和对称不确定性对数据集S的每个特征计算得分，设置阈值并对特征进行筛选，删除得分小于阈值的特征，形成新的数据集S’；

(2)用多个学习器对选择特征后的数据集S’进行学习，调整学习器参数，采用调参后的学习器对未知数据u进行训练，计算未知数据u属于各个类别的概率集合，使用平均法和加权投票法对概率集进行集成计算，从而得到数据u应分类的类别。

优选地，所述的步骤1包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】