[发明专利]一种基于局部敏感哈希的分布式快速文本分类方法有效
| 申请号: | 201510521022.7 | 申请日: | 2015-08-21 |
| 公开(公告)号: | CN105183792B | 公开(公告)日: | 2017-05-24 |
| 发明(设计)人: | 杨鹏;顾梁;董永强 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 局部 敏感 分布式 快速 文本 分类 方法 | ||
技术领域
本发明涉及一种基于局部敏感哈希的分布式快速文本分类方法,用于实现对文本进行快速高效地自动分类,属于文本挖掘技术领域。
背景技术
近年来,随着信息技术的不断发展,互联网中数字文本大量涌现,如何有效管理这些文本显得尤为重要。文本分类是有效管理文本的重要方法,在网页搜索、垃圾邮件过滤、用户反馈及个性化推荐系统等方面应用广泛。文本分类方法主要有两个评价指标:精确度和速度。前者用来表征文本是否归类到合适的分类中,而后者用来说明算法的执行效率。从提高这两项指标出发,目前比较典型的文本分类方法主要有基于支持向量机(SVM)的方法、基于贝叶斯(Bayes)的方法、线性分类以及K-近邻等。其中,基于SVM的文本分类方法通过在高维或无穷维的空间中构建一个或一组超平面,使得总体的函数边界误差最小,从而克服冗余特征、过拟合等问题,取得较高的分类精度。此外,该方法还具有更好的泛化能力。然而,由于其模型复杂,通常需要消耗大量的时间与空间,并且在大规模数据集下常常难以快速收敛。其它方法如基于贝叶斯的方法、线性分类及k近邻等,它们具有较快的收敛速度,但总的来说模型相对简单。
为了获得更好的算法性能,研究人员分别提出了相关的改进方法,这些改进方法或是结合已有方法(如结合PCA与LDA),或是利用技术手段优化已有方法(如利用人工免疫系统理论优化Bayes方法)。然而,一般来说,这些方法在速度上优于SVM方法,而在分类准确度上则略显不足。此外,目前已有的文本分类方法主要针对文本数量不多的情景,而互联网已经进入了大数据时代,这些方法在互联网大数据背景下处理海量文本显得愈加吃力。相比而言,哈希方法能够在将对象的较高维度信息映射为较低维度信息的同时,保留关于该对象的一些重要特征属性,因而比较适合进行快速高效的数据处理。哈希方法已经在很多数据处理领域(如基于内容的图片检索、重复文本检测等)得到了成功应用,但将它直接应用到文本分类还存在一些困难,如分词方法和哈希函数的选取、大数据环境下的并行执行效率等。另外,作为一类特殊的哈希方法,局部敏感哈希方法除具备一般哈希方法的优势之外,它还有一个重要特性,即相似对象所对应的哈希值也比较接近。因此,针对现有文本分类方法的不足,同时将局部敏感哈希方法的特性与并行计算框架Spark的优势相结合,本发明提出了一种快速准确的文本分类方法,能够很好地解决已有方法的弊端,满足大数据环境的迫切需求。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于局部敏感哈希的分布式快速文本分类方法,用于解决文本分类存在的准确率和速度有待进一步提高以及无法满足大数据环境需求的问题。
技术方案:一种基于局部敏感哈希的分布式快速文本分类方法,与已有方法不同的是,该方法采用局部敏感哈希技术将大量的文本特征映射到固定维度,并据此生成每个类别的哈希值,计算待比较文本哈希值与每个类别哈希值的相关性,从而完成该文本准确快速地归类;为适应大数据环境的需求,本发明还基于Spark框架进行设计实现,进一步提高了该方法的性能及可扩展性。
具体可分为四个步骤:步骤1首先依次对文本进行分词、去停用词,存储为HDFS文件等操作,然后将所有文本加载到弹性分布式数据集(Resilient Distributed Datasets,RDD);步骤2计算每个词语的n比特哈希值,并根据词频,通过RDD的变换,计算词语的tfidf值,并存储在RDD(tfidf)之中;步骤3根据训练数据集中每个类别下所有文本的词语tfidf值及n比特哈希值,计算每个类别的n比特类别向量及哈希值;步骤4基于n比特哈希值,计算待分类文本与每个类别的匹配度,得到文本所属类别。
有益效果:本发明与现有技术相比,具有以下优点:
1.采用局部敏感哈希方法对文本特征进行压缩映射,同时保留文本特征,从而生成类别及文本的哈希值,具有较高的分类准确性及较快的分类速度。
2.可以设定类别或文本哈希位数,从而可选择更高的分类准确度或更快的分类速度,满足不同分类场景的需求。
3.基于Spark框架进行了算法设计及实现,进一步提高了分类方法的执行速度、增加了方法的可扩展能力,满足大数据环境的需求。
附图说明
图1本发明实施例的文本分类过程图;
图2为本发明实施例中词语操作过程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510521022.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种权限管理的方法及客户端
- 下一篇:一种基于事务的数据整合方法





