[发明专利]一种基于遗传算法的特征选择方法在审
| 申请号: | 202010996242.6 | 申请日: | 2020-09-21 |
| 公开(公告)号: | CN112183598A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 周红芳;郭晓杰 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 弓长 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 遗传 算法 特征 选择 方法 | ||
1.一种基于遗传算法的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;
步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;
步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;
步骤4:结果的评价。
2.根据权利要求1所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2中强相关特征的定义为当且仅当特征属于强相关特征子集时,才称特征称为强相关特征;
弱相关不冗余特征的定义为当且仅当特征属于弱相关不冗余特征子集时,才称特征称为弱相关不冗余特征;
弱相关冗余特征的定义为当且仅当特征属于弱相关冗余特征子集时,才称特征称为弱相关冗余特征;
不相关特征的定义为当且仅当特征属于不相关特征子集时,才称特征称为不相关特征。
3.根据权利要求2所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、计算特征和类别特征之间的相关性,使用对称不确定性来衡量特征与类别特征之间的相关性,然后根据相关性的大小将特征分为强相关、弱相关和不相关特征子集三部分;
步骤2.2、计算特征和特征之间的冗余性,步骤2.1得到的弱相关特征使用相互作用信息来区分出冗余特征,最后将弱相关特征进一步分为弱相关不冗余和弱相关冗余两个特征子集。
4.根据权利要求3所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、编码方式,所述编码方式采用二进制编码;
步骤3.2、初始化,利用Two step-filter方法将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四部分,使得强相关和弱相关不冗余部分以较大概率为1,WRR和IR部分以较小概率为1;
步骤3.3、适应度计算,所述适应度使用SVM和NB分类器的分类准确率作为个体适应度的大小;
步骤3.4、选择,采用改进的分层的选择算子,将个体根据适应度大小分为高适应度,中适应度和低适应度三部分,所述三部分部分采用锦标赛选择;
步骤3.5、交叉,使用改进的交叉算子,由于提出的算法中种群中的个体或染色体由强相关、弱相关不冗余、弱相关冗余和不相关四部分组成,交叉操作会随机的交换两个父染色体的四部分中的一个;
步骤3.6、变异,变异算子使用均匀变异;
步骤3.7、精英保留策略,将每代中两个最优个体加入精英种群;
步骤3.8、终止条件,所述终止条件是当最优个体的适应度达到给定的阈值或者迭代次数达到预设的次数时算法终止。
5.根据权利要求4所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤4具体按照以下步骤实施:使用10折交叉验证分别在SVM和NB作为分类器的条件下进行实验,评估最终得到的特征子集的分类精度和选择的特征数量。
6.根据权利要求3所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2.1的对称不确定性的定义公式(4):
其中,I(X;Y)表示随机变量X,Y之间的互信息,H(X)和H(Y)分别表示信息熵。
7.根据权利要求3所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2.2的相互作用信息的定义公式(6):
I(X;Y;Z)=I(X;Y|Z)-I(X;Y) (6)
其中,I(X;Y;Z)用来衡量随机变量X和Z关于Y的冗余性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010996242.6/1.html,转载请声明来源钻瓜专利网。





