[发明专利]一种基于Hadoop的文档分类方法有效
申请号: | 201210072522.3 | 申请日: | 2012-03-19 |
公开(公告)号: | CN102637205A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 高阳;江凯;杨育彬;商琳 | 申请(专利权)人: | 南京大学;南京大学江阴信息技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 夏雪 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 文档 分类 方法 | ||
技术领域
本发明涉及一种基于Hadoop的文档分类方法,特别涉及一种应用在大规模文档分类任务中的并行化的半监督的朴素贝叶斯分类方法。
背景技术
朴素贝叶斯方法作为一种优秀的分类方法一直受到人们的关注和研究,特别在应用于文本分类任务时,朴素贝叶斯方法的简单,快速和准确率高等特点使之成为最好和最流行的文本分类方法之一。
近年来随着信息技术的快速发展和互联网的高度普及,文档分类任务呈现出新的特点,这些特点主要体现在以下两个方面:一,每天都有海量的数据进发出来,这些数据通常是TB级甚至是PB级的,同时数据的增长速度也呈上升趋势;二,用于训练分类器所需要的带标记的数据通常是很少的,大量的文本数据都是无标记的。这些特点给传统的朴素贝叶斯分类技术带来了挑战,一方面,传统的基于单机运算的计算模式难以在可接受的时间范围内给出处理结果。另一方面,分类器的准确率很大程度上依赖于训练所用的数据,传统的方法只能使用带标记的文本进行训练,这种标记一般都是人工标注的,所以其代价很高,而如果带标记文本的数量不足则会影响分类器的效用。
发明内容
发明目的:针对目前数据的规模巨大和大多数文本数据是无标记的这两个问题,本发明提供一种基于Hadoop的文档分类方法——一种新型的并行化的半监督的朴素贝叶斯分类方法——PSNB(Parallelized Semi-supervised Bayes)来适应新形势下文本分类任务的需要。
技术方案:为实现上述发明目的,本发明通过利用少部分的带标记样本和大部分的无标记的样本来提高分类器的准确性,同时通过基于集群的map-reduce计算模型来提高训练分类器的速度。该方法包括如下步骤:
(1)对训练用文档集(简称“训练集”)进行预处理,将原始的文档转化成向量形式;
(2)将向量形式的数据上传至集群文件系统;
(3)所述集群文件系统对向量形式的数据进行分块处理;
(4)对分块处理后的数据进行map-reduce处理过程得到统计信息;
(5)根据统计信息训练分类器;
(6)利用得到的分类器对测试用的文档进行分类。
进一步地,所述步骤(4)包括如下步骤:
1)从向量集中取出一个向量,判断该向量是带标记的数据还是无标记的数据,如果是带标记的数据转2),否则转3);
2)对于原始的文档中的每个单词发送两个键值对,转4);
3)对于原始的文档中的每个单词发送一个键值对,转4);
4)Hadoop自动收集由map过程发送过来的键值对,并且按照这些键值对的key值再重新发送到所述集群文件系统中的各个节点上去进行reduce过程;
5)在所述集群文件系统中的各个节点对接收到的键值对进行reduce处理。
有益效果:(1)能够利用大量无标记的文本提高分类器的分类准确度;(2)能够利用集群和并行计算模型提高训练分类器的速度。
附图说明
图1为本发明方法的分类器训练时的数据流与过程流图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明方法中的核心过程map-reduce过程包含数据预处理动作,数据上传动作,数据划分动作,数据分配动作、map动作、中间数据传输动作、reduce动作、构造分类器动作。
本发明方法的具体细节如图1所示,下面详细说明:
步骤1,用户将编写好的程序传输给master节点,master节点开始根据程序准备数据,并且同时调度集群文件系统(图中为“文件系统”),将map/reduce过程拷贝至各个slave节点。
步骤2,经过预处理将原始的文档转化成向量形式:其中d1表示训练集中的一篇文章,|d1|表示文章d1中单词的数目,表示在该文章出现的次数,c是该文章的类标,倘若该文章是无标记的,那么c就是一个特殊的用来表示无标记的标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;南京大学江阴信息技术研究院,未经南京大学;南京大学江阴信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210072522.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车发动机缸盖导油孔加工机床及其方法
- 下一篇:一种海蒿子人工育苗方法