[发明专利]一种基于Hadoop的文档分类方法有效
申请号: | 201210072522.3 | 申请日: | 2012-03-19 |
公开(公告)号: | CN102637205A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 高阳;江凯;杨育彬;商琳 | 申请(专利权)人: | 南京大学;南京大学江阴信息技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 夏雪 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 文档 分类 方法 | ||
1.一种基于Hadoop的文档分类方法,其特征在于,包括如下步骤:
(1)对训练用文档集进行预处理,将原始的文档转化成向量形式;
(2)将向量形式的数据上传至集群文件系统;
(3)所述集群文件系统对向量形式的数据进行分块处理;
(4)对分块处理后的数据进行map-reduce处理过程得到统计信息;
(5)根据统计信息训练分类器;
(6)利用得到的分类器对测试用的文档进行分类。
2.根据权利要求1所述一种基于Hadoop的文档分类方法,其特征在于:所述步骤(4)包括如下步骤:
1)从向量集中取出一个向量,判断该向量是带标记的数据还是无标记的数据,如果是带标记的数据转2),否则转3);
2)对于原始的文档中的每个单词发送两个键值对,转4);
3)对于原始的文档中的每个单词发送一个键值对,转4);
4)Hadoop自动收集由map过程发送过来的键值对,并且按照这些键值对的key值再重新发送到所述集群文件系统中的各个节点上去进行reduce过程;
5)在所述集群文件系统中的各个节点对接收到的键值对进行reduce处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;南京大学江阴信息技术研究院,未经南京大学;南京大学江阴信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210072522.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车发动机缸盖导油孔加工机床及其方法
- 下一篇:一种海蒿子人工育苗方法