[发明专利]一种文本级的大数据统计分析方法在审

申请号：	201710879947.8	申请日：	2017-09-26
公开（公告）号：	CN107589967A	公开（公告）日：	2018-01-16
发明（设计）人：	黄礼成;张蓉;邓钢	申请（专利权）人：	南京哈卢信息科技有限公司
主分类号：	G06F9/44	分类号：	G06F9/44;G06F17/27;G06F17/30
代理公司：	南京众联专利代理有限公司32206	代理人：	吕书桁
地址：	210000 江苏省南京市雨花台***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本大数据统计分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域：

本发明涉及一种文本级的大数据统计分析方法，属于互联网技术领域。

背景技术：

近年来，随着计算机信息技术的普及以及互联网技术的高速发展，计算机用户逐渐从信息的浏览者变成了信息的制造者，文本数据规模急剧增长。典型的文本数据包括大规模网页中的文本内容、购物网站中的产品介绍和用户评论、新闻网站中的新闻报道、社交媒体的短文本消息、电子邮件和聊天记录、工作中产生的办公文档等。这些文本数据逐渐呈现出典型的大数据特征：体量大、更新快、格式复杂多样、质量参差不齐。一方面，这些数据中蕴含着极大的价值，人们挖掘和利用文本大数据的需求也越来越强烈；同时，越来越严重的信息过载问题导致了海量文本大数据的出现。文本大数据的分析和应用迎来了崭新的机遇和挑战。

文本分析技术旨在通过计算机技术对无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取，挖掘和分析出其中存在的事实以及隐含的立场、观点和价值，进而推断出文本生成者的意图和目的。文本分析是典型的自然语言处理工作，是文本挖掘、信息检索领域的一个基本研究问题。其关键子任务主要有分词、词性标注、命名实体识别、句法分析、语义角色标注、文本分类、文本聚类、自动文摘、情感分析、信息抽取、实体匹配与消歧等。传统的文本分析技术已广泛应用在自动问答系统、搜索引擎、用户商业意图识别等领域和系统中。

在对大数据的认识中，人们总结出它的4V特征，即容量大、多样性、生产速度快和价值密度低，为此产生出大量的技术和工具，推动大数据领域的发展。为了利用好大数据，如何有效的从其中提取有用特征，也是重要的一方面。

发明内容：

本发明的目的是针对上述存在的问题提供一种文本级的大数据统计分析方法，对于几十甚至上百GB的日志文件，或者几亿条记录的数据文件，进行次数、字段累计、字段平均、字段最高最低值等等的统计分析，设计一种简单高效的工具，进行快速统计分析。

上述的目的通过以下的技术方案实现：

一种文本级的大数据统计分析方法，该方法包括：

（1）参考linux的原生内核工具的源码，利用xarg、split对原始大文件进行分割；

（2）利用grep、sed对关键字段过滤；

（3）利用cut、awk对统计字段进行分析计算。

所述的文本级的大数据统计分析方法，步骤（1）中所述的linux的原生内核工具包括sed、awk、grep、split、xarg、cut。

有益效果：

本发明能够对于几十甚至上百GB的日志文件，或者几亿条记录的数据文件，进行次数、字段累计、字段平均、字段最高最低值等等的统计分析，简单高效。

具体实施方式：