[发明专利]基于对称不确定性联合条件熵的特征选择方法在审
申请号: | 202111363477.2 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114169406A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 周红芳;王晨光;连延彬 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对称 不确定性 联合 条件 特征 选择 方法 | ||
1.基于对称不确定性联合条件熵的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
2.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤1所述连续型样本数据集为ASU特征选择库中的数据集合。
3.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
其中,表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
fmax=arg max fi∈F[I(fi;C)] (2)。
4.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤3具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
其中,表示特征fi的特征值离散化的段数,NC是样本的类别总数;
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
其中,表示特征ft的特征值离散化的段数;
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
步骤3.5、根据公式(7)求出平均条件对称不确定度最大的候选特征ft,并将候选特征ft放入集合S中;
其中,M表示集合S中元素的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111363477.2/1.html,转载请声明来源钻瓜专利网。