[发明专利]基于MapReduce的并行特征选择方法在审

专利信息
申请号: 201310467990.5 申请日: 2013-10-09
公开(公告)号: CN103559205A 公开(公告)日: 2014-02-05
发明(设计)人: 孙占全;顾卫东;李钊;赵彦玲 申请(专利权)人: 山东省计算中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南泉城专利商标事务所 37218 代理人: 褚庆森
地址: 250101 山东省济南市高新区新*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 mapreduce 并行 特征 选择 方法
【说明书】:

技术领域

发明涉及一种基于MapReduce的并行特征选择方法,更具体的说,尤其涉及一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。 

背景技术

近年来,很多领域的数据集不论是在数量上还是特征变量数上都变得越来越大,如基因组工程、文本分类、图像检索和客户关系管理等。这可能会给很多机器学习方法的可扩展性和学习性能带来严重的问题。如何选择信息量最大的特征变量组合是一个至关重要的问题。特征选择是从原始特征集中根据一定的评价标准来选择特征子集,从而有效降低特征变量集维数的过程。特征选择可有效降低特征变量维数,去除不相关数据,提高学习精度,提高结果的可理解性。因此,特征选择对于高维数据的机器学习任务变得十分必要。 

相关分析是特征选择基础,相关系数是一种常用相关测度,它只能测量变量之间的线性关系。逐步回归是另一种常用的特征选择方法,它主要用于线性回归问题。熵是一个可以度量任意随机变量不确定性的测度,基于熵的互信息可以度量变量之间任意统计相关性,基于互信息的特征选择已被广泛应用。但是,随着电子和信息机技术的快速发展,电子数据量呈指数级增长。数据洪流已成为急需解决的突出问题,科学家们面临各个领域产生的不断增长的海量数据处理问题,如生物信息学、生物医学、化学信息学、网络等等。常规的特征选择方法无法处理大规模的数据集。 

发明内容

本发明为了克服上述技术问题的缺点,提供了一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。 

本发明的基于MapReduce的并行特征选择方法,其特别之处在于,通过以下步骤来实现:a).数据划分,将初始数据 平均划分为份,设其分别为、、…、;b).数据部署,设参与运算的计算节点的数目为个,将划分后的份数据平均分配到个Map计算节点上;c).建立向量,设和为两个向量,其中Φ,,表示已选择的特征集,初始为空集;表示未选中的特征集,初始为数据的所有特征变量,为特征变量数;设为类变量,设需要从个特征变量中选取个特征;d).求取联合互信息,对于个Map计算节点中的任意一个计算节点来说,在处理每一份数据的过程中,均计算向量与类变量之间的联合互信息,其中:,;e).选取特征变量,步骤d)中,使联合互信息最大的特征变量作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号和相应的联合互信息值传递给Reduce计算节点;f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量作为选取的全局特征变量;如果存在,则执行步骤g);g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量作为全局特征变量;h).被选中特征的添加和删除,将选中的全局特征变量添加至向量中,即令;并将选中的全局特征变量从向量中删除,即令;i).判断选中特征的数目,判断已选中特征变量的数目是否已达到个,如果达到个,则整个特征选择过程结束;如果没达到个,则重复执行步骤d)~h)重选择下一个特征。 

本发明的基于MapReduce的并行特征选择方法,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:d-1).建立特征变量,特征变量集用向量=表示,表示第个特征变量,其中,,每个特征变量有个不同的取值;d-2).建立类变量,类变量用表示,,,所有的特征映射到个不同的类中;特征变量和类变量都是离散值;d-3).获取概率分布,通过对样本的统计得到概率分布,设是特征变量的概率分布, 设是类变量的概率分布,设是特征变量与类变量的联合概率分布; 

d-4).计算特征变量香农熵,通过公式(1)计算出特征变量的香农熵;

     (1)

d-5).计算类变量香农熵,通过公式(2)计算出类变量的香农熵;

     (2)

d-6).计算联合香农熵,通过公式(3)计算特征变量与类变量之间的联合香农熵;

     (3)

其中,可用特征变量集代替,即推广到个特征变量的情况;

d-7).求取互信息,通过公式(4)求取特征变量与类变量之间基于香农熵的联合互信息;

     (3)

                   =

其中,可用特征变量集代替。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心,未经山东省计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310467990.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top