[发明专利]一种基于和声搜索的混合特征选择方法在审

申请号：	201710090165.6	申请日：	2017-02-20
公开（公告）号：	CN106897413A	公开（公告）日：	2017-06-27
发明（设计）人：	徐光侠;张钰柔;刘榕;刘俊;解绍词;代皓;唐志京;郑爽;蒋鹏	申请（专利权）人：	重庆邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	重庆市恒信知识产权代理有限公司50102	代理人：	刘小红,李金蓉
地址：	400065 重***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于和声搜索混合特征选择方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及社交网络数据挖掘和安全领域，特别是涉及基于和声搜索的混合特征选择方法。

背景技术

随着互联网技术的不断发展,社会化网络正引领着互联网产业新的增长势,在线社交网络已经成为现代人们生活必不可少的交往方式之一。国外的Twitter、Facebook、国内的新浪微博、腾讯微博等平台的用户增长率接连翻倍。由于社交网络的运行模式，用户通过社交网络每一天都会产生和获得大量信息。理论上来说，在社交网络中可利用的特征是无穷无尽的，同时并不是所有的用户特征都至关重要，只有小部分的特征才是决定性因素，所以如何解决用户特征的选取问题，是准确地从社交网络数据中挖掘知识的关键。特征选择在数据挖据、机器学习和模式识别等多个领域都有应用，其主要目的是从一个问题域中发现一个最小的特征子集，这个最小的特征子集保持一个适当的高精度，并且能代表原始数据。在现实问题中，特征选择通常要丢弃嘈杂、不相关或有误导性的特征，通过消除这些特征，可以大大提高分类问题(如文本和Web内容分类等)的准确率以及效率。

目前，特征选择大体可以分为两类：过滤器(Filter)和包装器(wrappers)。一方面，基于过滤器的方法直接应用到数据集，一般只考虑数据的内在属性并给予相关的分数。得分高的特征作为分类算法的输入。该方法的主要缺点在于忽略了特征之间依赖关系，这导致了一些特征的重复性。另一方面，基于包装器的方法一般使用一种学习算法来评估特征子集，同时，使用一种学习算法的性能指标，以指导特征子集搜索。该方法考虑到了特征之间依赖关系，但由于它是计算密集型，所以具有较高的计算成本。针对上述两种方法的缺点，对于社交网络用户特征这种巨大的数据集，单纯使用某一种方法并不能够达到很好效果。

发明内容

为了克服上述现有技术存在的缺陷，本发明的目的是提供一种基于和声搜索的混合特征选择方法。该方法将过滤器和和声搜索结合起来，形成一种可以进行特征选择的混合系统。和声搜索是一种元启发式算法，它模仿了音乐播放器的即兴演奏过程，具有较低的复杂度。和声搜索已经成功地运用到了各种各样的优化问题上，跟传统的优化方式比也有自己的计算简单，容易理解的优势。通过结合过滤器大大减小了和声搜索的搜索空间。

为了实现上述目的本发明采用如下技术方案：一种基于和声搜索的混合特征选择方法，包括以下步骤：

S1：对社交网络用户原始特征集数据进行归一化和离散处理。

S2：将步骤S1处理后的数据分别输入到若干个过滤器中，每个过滤器处理得到各自的特征子集；通过多数投票算法从若干个特征子集中选出数量较小的较优特征子集。

S3：初始化和声记忆(Harmony Memory)的音乐家(Musicians)数目，最大迭代次数，和声记忆取值概率(Harmony Memory Considering Rate)和微调概率(Pitch adjustment Rate)；将S2中得到的较优特征子集存储在和声记忆中，作为随机和声。

S4：每个音乐家从原始特征集中随机选择一个音符，形成新的和声；通过和声的依赖程度(Dependency Degree)判定和声好坏，如果形成的新的和声比在和声记忆中最坏的和声好，新的和声则存入和声记忆中，而所述最坏的和声则被移除；否则丢掉该新的和声。

S5：按照步骤S4迭代直到达到最大迭代次数，输出此时的新的和声，作为最优和声。

步骤S1中所述归一化处理让每个特征具有大概相同的规模,每个特征的规模均落在[0,1]中，具体方法为：

其中min_f和max_f分别代表特征的最小值和最大值，f为特征原有值，f'表示归一化处理后取值范围落在[0,1]的特征值。

步骤S2所述过滤器包括信息增益、Relief算法和卡方统计三种过滤器。

所述信息增益(Information Gain)是一种基于排序的特征选择方法，具有较高信息增益的特征会得到更好的排名。其计算方法如下：

特征A的信息增益可以表示为：

Gain(A)＝H(S)-H(S|A)

其中,H(S)为将一个元组分类到S的熵，H(S|A)为一个元组在有特征值A的情况下分类到S的熵；S表示分类系统中的类别，一共有C₁,C₂,C₃,…C_m类。

H(S)由如下公式计算：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载