[发明专利]基于Spark的并行化随机标签子集多标签文本分类方法在审
申请号: | 201710086932.6 | 申请日: | 2017-02-17 |
公开(公告)号: | CN106874478A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 王进;王鸿;夏翠萍;范磊;欧阳卫华;陈乔松;雷大江;李智星;胡峰;邓欣 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 并行 随机 标签 子集 文本 分类 方法 | ||
技术领域
本发明涉及信息技术、云计算、数据挖掘、文本分类等领域,提供了一种基于Spark大数据平台的并行化随机标签子集多标签文本分类算法。
背景技术
随着信息技术的发展,互联网数据规模呈海量增长,表现形式也不断丰富。文本作为重要的信息载体,其自动分类技术的发展能够提高对海量信息的处理效率,节约处理时间,方便用户的使用,近年来得到广泛的关注和快速的发展。传统有监督学习认为每个样本只具有一个标签,缺乏准确表述事物的复杂语义信息的能力。但是一个样本可能对应与之相关的多个标签,例如文本信息往往同时拥有多个语义,比如一个文本信息可能同时与计算机、机器学习、经济、社会效益等相关联。有效明确解释事物具有的多个语义的一个直接方法就是给一个事物标注多个标签,因此多标签学习(Multi-Label Learning)也应运而生。在多标签学习中,每个样本可能包含一个或多个标签,被多个标签标注的样本能够更好的表现事物语义信息的多样性,也能够使其分类更具现实意义。
随机标签子集多标签(ECC)算法是多标签分类算法的一种,其核心思想为将多标签学习问题转换为多个随机标签子集的学习过程。该算法考虑了标签之间的关联性并且加入了随机因素,在实际使用中分类效果很好。但由于训练阶段需要对于同一样本集进行多个随机标签子集进行多次训练,构建多个训练模型;预测阶段需要使用训练阶段构建的多个模型进行多次预测过程,因此时间复杂度和空间复杂度较高,随着数据量的增大,采用传统串行算法难以应对规模越来越大的数据集,出现运行时间过长,内存溢出等情况,不能满足工程需求。近几年来,大数据技术的发展为解决此类问题提供了理想的条件和思路。
Spark是一个基于内存的分布式计算系统,是由UC Berkeley AM P Lab实验室于2009年开发的开源数据分析集群计算框架。拥有MapReduce的所有优点,与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中,通过减少磁盘I/O,使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用.这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中,运行基于内存的logistic regression,在迭代次数相同的情况下,Spark的性能超出Hadoop MapReduce 100倍以上。两者之间在计算过程中也存在一些不同之处,比如MapReduce输出的中间结果需要读写HDFS,而Spark框架会把中间结果保存在内存中。这些不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。而弹性分布式数据集(RDD,Resilient Distributed Datasets)是Spark框架的核心数据结构,它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。Spark将数据集运行的中间结果保存在内存中能够极大地提高性能,资源开销也极低,非常适合多次迭代的机器学习算法。
弹性分布式数据集(RDD)是Spark的核心数据结构。这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。通过RDD,Spark可以基本一致的应用于不同的大数据处理场景,如MapReduce,实时流数据,SQL,Machine Learning和图计算等。RDD是一个容错的、并行的数据结构,可以显式的将数据存储在内存和磁盘中,并且能够控制数据的分区状态。RDD还提供了一系列操作接口,用户通过这组接口,可以方便的操作其中的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710086932.6/2.html,转载请声明来源钻瓜专利网。