[发明专利]一种基于Spark下并行超网络的分类方法有效
申请号: | 201611115832.3 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106777006B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 王进;赵蕊;卜亚楠;孙开伟;孟小敏;李智星;陈乔松;邓欣;胡峰;雷大江;高选人;余薇;欧阳卫华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/35 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 并行 网络 分类 方法 | ||
本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。
技术领域
本发明涉及机器学习、大数据处理技术领域,尤其一种基于Spark对演化超网络文本分类方法的并行化实现。
背景技术
随着信息技术的发展,互联网数据及资源已实现了爆炸性的增长。由于基于内容的信息检索和数据挖掘方法能够有效地管理和利用这些海量信息,因此在近年来备受关注。在数据量不断增大的同时,数据的标注结构复杂程度也在增加,传统的机器学习方法的研究成果已经不能满足技术发展的需要。因此,对传统机器学习方法并行化处理成为了当今研究的一个热点,其在现实生活中的重要性逐渐凸显,已广泛应用于在海量文本分类、大规模图像视频的语义标注、海量基因功能组以及超规模音乐情感分类等方面。与传统的机器学习任务相比,传统机器学习的并行化难点在于如何有效处理对标签数量呈指数增长的标签空间、海量数据无法进行正确的分类处理以及提高分类效率的问题。
超网络是受到生物分子网络的启发而提出的一种概率图论模型。它是一种特殊的超图,由大量的超边组成,其中每条超边可以连接任意数量的顶点,能很好的表示数据之间和特征之间的高阶关联性。超网络模型弥补了传统机器学习算法表现形式复杂、学习结构可读性差的缺点,能有效地进行数据挖掘和知识发现,提供可读性强的学习结果,解决目前机器学习和数据挖掘领域存在的问题。超网络模型已经在疾病诊断、多模态信息检索、股票预测等方面取得很好的成绩。
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。
发明内容
有鉴于此,本发明的目的在于提供一种基于Spark下并行超网络的分类方法。
本发明的目的是通过以下技术方案来实现的,一种基于Spark下并行超网络的分类方法,具体包括以下步骤:步骤S101.把文本数据部署到Spark平台上;步骤S102.在Spark平台上对文本数据进行并行化预处理;步骤S103.在Spark平台上,对超网络算法的演化学习进行并行化实现。
进一步,所述步骤S102具体为:先将原始数据通过缺失数据处理、然后进行离散化处理或计算超边阈值ζ;
超边阈值匹配为超边与样本的距离小于ζ*d′,其中d′为超边的维度,超边阈值ζ的计算公式如公式(1)所示;
其中对于样本数据x来说,Gx表示样本数据x近邻的集合,d代表训练样本维度,x’表示样本数据x的近邻样本。
进一步,步骤S103具体包括以下子步骤:
S1031.对训练集中每条文本数据生成p条超边,k条数据的超边构成N条超边库,并初始化每条超边的权值wj=1(j=1,2,…,N),形成对应的超边权重向量W={w1,w2,…,wN};
S1032.把训练集中每一条文本数据与超边进行匹配,根据匹配原则形成一个k*N的稀疏矩阵A;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611115832.3/2.html,转载请声明来源钻瓜专利网。