[发明专利]基于大数据平台的文本处理及检索系统在审

申请号：	201610976155.8	申请日：	2016-11-07
公开（公告）号：	CN106599041A	公开（公告）日：	2017-04-26
发明（设计）人：	姜鑫;王金华	申请（专利权）人：	中国电子科技集团公司第三十二研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海汉声知识产权代理有限公司31236	代理人：	郭国中
地址：	200233 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据平台文本处理检索系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种计算机信息处理系统，特别是涉及一种基于大数据平台的文本处理及检索系统。

背景技术

数据的爆炸性增长是信息时代最典型的特征。国际互联网数据中心(Internet Data Center，IDC)的研究报告指出，2011年全球已有1.8ZB(即1.8万亿GB)数据创建产生。这相当于每位美国人每分钟写3条Tweet(“推特”上的留言)，并且还是不停地写2.7万年。Google数据中心的服务器规模以达数百万台，每天处理的数据量超过100PB。这样的大数据中包括大量结构化和非结构化数据，尤其是以文本等为代表的非结构化数据，处理海量数据的两个关键问题就是海量数据的存储和计算问题，传统的文本处理系统在这两个方面都不能满足海量网络文本处理的需求。如何从海量数据中分析和挖掘潜在的价值已经成为大数据研究的重点。

基于大数据平台的文本处理及检索系统围绕着基于Hadoop(海杜普，Hadoop是一个由Apache基金会所开发的分布式系统基础架构)平台下的网络文本处理展开，研究的内容包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分构建。其中基于Hadoop一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，主要有创建索引、实体识别、提取关键词、文本自动摘要、文本聚类和自动分类等操作过程，而这些过程的实现均需要进行文本处理。为了解决效率和安全的问题，同时考虑到现有的软件、硬件资源情况，决定将系统的文本处理部分移植到Hadoop分布式计算机平台中。Hadoop平台可将处理程序分发到不同的计算节点实现分布式处理，然后将化理的结果统一地在Hadoop分布式文件系统——HDFS中进行管理。所以基于大数据平台文本处理系统需要解决文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类等多方面的问题。基于Hadoop分布式检索功能部分构建介绍基于Hadoop平台下检索相关的技术。首先实现了对Lucene(全文搜索引擎)功能的扩展，使Lucene能支持对HDFS文件系统的读写。其次，实现了二个MapReduce(一种编程模型，用于大规模数据集的并行运算)类，一个完成分布式的分词功能，另一个完成建立倒排索引功能。

现有的发明专利中，“面向数据挖掘的文本处理系统及方法”专利(中国专利申请号201510638674.9、2015.09.29)，描述了文本处理的方法，仅针对文本类数据的数据挖掘，包括索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程，而这些过程的实现均需要进行文本处理，虽然其文本处理方法比较详细，但是其仅仅涉及了文本处理方法，并未将文本处理方法跟大数据相结合，具有一定的局限性。“一种基于语义的大数据分析系统”专利(中国专利公开号为：CN104281697A、2015.01.14)，介绍了一种基于语义的大数据分析系统，包括数据采集入库部件、实时数据流处理部件、实时数据流处理部件、存储体系部件和底层支持部件。该发明实现基于web的大数据分析，其底层支持部件中涉及的文本处理和检索相关的事务可以进一步提升。“一种基于语义的大数据分析商业智能服务系统”专利(中国专利公开号为：CN104182389A、2014.12.03)，介绍了一种基于语义的大数据分析商业智能服务系统，实现了对互联网富含的商业信息地精准分析，可以方便快捷的为中小型企业提供商业智能服务，但是其在文本分词、词性标注、实体识别等方面，限制了对文本处理的能力。

发明内容

本发明所要解决的技术问题是提供一种基于大数据平台的文本处理及检索系统，其能够提供丰富的文本处理技术，包括文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类；基于大数据分析技术，充分分析和挖掘文本的内在信息和体现的重要价值；将文本处理技术和大数据分析技术进行结合，有效的提高文本处理的效率和准确度；提供基于分布式内容共享的全文检索技术，提高本文的检索效率。

本发明是通过下述技术方案来解决上述技术问题的：一种基于大数据平台的文本处理及检索系统，其特征在于，其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；

所述基于Hadoop的文本处理部分包括：

文本抽取模块，接收外部文本文件；

文本分词模块，接收来自文本抽取模块的文本内容；

索引建立模块，根据文本分词模块所提供的分词结果建立文本内容的索引文件，为服务接口模块提供索引文件；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所，未经中国电子科技集团公司第三十二研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610976155.8/2.html，转载请声明来源钻瓜专利网。