[发明专利]一种基于特征可信度的高效特征选择方法在审

申请号：	201811193848.5	申请日：	2018-10-12
公开（公告）号：	CN109344972A	公开（公告）日：	2019-02-15
发明（设计）人：	王玉峰;陈艺元	申请（专利权）人：	南京邮电大学
主分类号：	G06N99/00	分类号：	G06N99/00
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	母秋松;董建林
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标类别可信度样本历史信息随机样本特征选择历史更新数据集中搜索效率随机挑选位置更新选择概率粒子群适应度相关度最近邻准确率迭代维度粒子收敛选中全集引入更新优化保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于特征可信度的高效特征选择方法，其特征在于：包括如下步骤：

步骤1：从数据集中随机挑选出样本，选取该随机样本的同类和不同类样本实例集，计算同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；计算不同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；对同类和不同类k个样本的每个特征的权值进行更新，作为特征可信度的一个来源；

步骤2：设定BPSO各个参数，计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源，并结合特征集A中各个特征的权值计算特征的可信度；

步骤3：根据最终输出的gbest_d，确定最终的特征选择。

2.根据权利要求1所述的一种基于特征可信度的高效特征选择方法，其特征在于：所述步骤1包括如下步骤：

步骤1-1：设训练数据集为D，迭代次数为m，样本特征集A＝[a₁，a₂，a₃，...，a_n]，n为特征个数，a_n为该特征的取值；设特征集A中特征的权值集合W[A]＝[W₁，W₂，W₃，...，W_n]，置所有的特征的初始权值为0，则W[A]＝0；

步骤1-2：循环执行以下2个步骤m次：

步骤1-2-1：从训练数据集D中随机选择一个样本R，选取该随机样本R的同类样本实例集，计算同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本H_i，1＜i≤k；

步骤1-2-2：选取该随机样本R的不同类样本实例集，计算不同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本M_j(c)，1＜j≤k；

步骤1-3：根据前两个步骤选择的m个样本R和它对应的H_i以及M_j(c)，更新特征集A中n个特征的权值集合W[A}：

其中，p(c)表示类别为c的分布概率，c≠class(R)表示与样本R不同类别，class(R)表示样本R所属的类别，diff函数定义为：

对于离散特征：

对于连续特征：

式中I₁，I₂为两个样本实例，value()表示当前样本实例中特征集A的取特征值。