[发明专利]一种基于分布式互信息文档特征提取方法有效
| 申请号: | 201310138475.2 | 申请日: | 2013-04-19 |
| 公开(公告)号: | CN103279478A | 公开(公告)日: | 2013-09-04 |
| 发明(设计)人: | 林为民;张涛;马媛媛;邓松;李伟伟;时坚;汪晨;王玉斐;周诚 | 申请(专利权)人: | 国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 100031 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布式 互信 文档 特征 提取 方法 | ||
技术领域
本发明属于分布式计算和数据挖掘技术领域,具体涉及一种基于分布式互信息文档特征提取方法。
背景技术
互联网迅猛发展的同时,也给我们带来了非常壮观的信息爆炸,如何对互联网上海量的数据进行处理是互联网企业必须面对的严峻考验,想要解决“数据丰富,信息贫乏”这个问题,就必须对海量数据进行分析和挖掘,比较常见而且实用的处理海量数据的方法就是对文档进行分类,即文档分类。
文档分类的任务是在给定的分类体系下,对一未知类别标号的文档,根据其内容进行归类,它可以归为多类,也可以不属于任何类(对给定的类集合而言)。
常见的文档分类步骤为:对文档进行分词处理;特征词条的选择;文档的表示;确定文档分类。这四个步骤是相辅相成的,每一个步骤的数据输出都作为下一个步骤的数据输入。
其中文档表示就是VSM(向量空间模型),就是把文档看作一个多维向量,然后用余弦相似度来表示文档之间的关系,但是该方法的最大缺点就是向量的维数太大,为了减少向量的维数,需要文档的特征词的提取工作。互信息方法衡量的是某个词和某个类别之间的相互关系。它度量两个事物之间的相互性。互信息是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的数值表现,使用互信息理论进行特征提取是基于这样的假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。因此对于每一主题来讲,特征的互信息越大,说明它与该主题的共现概率越大,因此以互信息可以作为提取特征的评价时应选互信息最大的若干个特征。
常见的文档表示方法就是VSM(向量空间模型),就是把文档看作一个多维向量,然后文档之间的关系就可以表示成向量之间的关系,这样就可以利用余弦定理来计算文档之间的相似度,根据相似度对文档进行分类是一种很常见的方法,但是该方法的最大缺点就是向量的维数太大,为了减少向量的维数,文档的特征词条的提取就显得尤为重要。文档分类中复杂度最大的阶段就是特征词条的提取以及相应的文档表示,特别是在处理海量数据的文档分类的时候,这种问题显的更为突出。
分布式计算是解决海量数据计算的最重要的方式,经需要计算的大型数据分成多个部分,分布到多台计算机上进计算,最后将结果进行汇总,达到快速运算的目的。Hadoop就是典型的云计算环境,实现并解决海量数据集的存储、分析和计算的功能,现阶段已应用于多种平台,有着低成本、可扩展性、可伸缩性、高效性、高容错性等优点,它的主要组件包括分布式文件系统(HDFS)和映射-化简(MapReduce)编程模型,映射-化简模型的主要思想就是任务的分解以及对分解结果的汇总。映射-化简模型包括两个动词映射(Map)和化简(Reduce),映射就是将一个任务分解成为多个子任务,化简就是将分解后多子任务处理的结果汇总起来,得出最后的分析结果。
当前许多的现有成熟的文档分类的相关成熟的算法都是基于单任务设计的,如果将文档分类的特征词提取以及文档表示步骤结合到分布式计算框架中,将会对文档分类的速度以及处理语料库的数量都有显著的提高。
发明内容
针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题,本发明提供一种基于分布式互信息文档特征提取方法,利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取,可以加快文档分类的速度以及可扩展性,通过对键值对的设计,在提取特征词的同时就可以并行计算出特征词在文档中的权值,加快文档分类的效率。
为了实现上述发明目的,本发明采取如下技术方案:
提供了一种基于分布式互信息文档特征提取方法,所述方法包括以下步骤:
步骤1:进行文档集合,并对文档进行初始化;
步骤2:计算文档中分词出现的频率和不同分类中分词的互信息值,从而选择出特征词集合;
步骤3:计算所有特征词的权值,从而形成最终的文档向量集合。
所述步骤1中,对文档进行初始化包括文档的分词简化处理以及分布式表示。
所述步骤1包括以下步骤:
步骤1-1:设D={d1,d2,...,dj,...,dN}表示语料库,dj表示语料库中每个文档,N表示语料库所有文档的数目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司,未经国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310138475.2/2.html,转载请声明来源钻瓜专利网。





