[发明专利]一种流数据的分类方法及其装置和系统在审

专利信息
申请号: 201410530955.8 申请日: 2014-10-10
公开(公告)号: CN104268260A 公开(公告)日: 2015-01-07
发明(设计)人: 李广砥;王国胤;张学睿;张帆;封雷;席大超;邓伟辉;郭义帅;谢亮 申请(专利权)人: 中国科学院重庆绿色智能技术研究院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海光华专利事务所 31219 代理人: 李强
地址: 400714 *** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 分类 方法 及其 装置 系统
【说明书】:

技术领域

发明涉及一种大数据处理领域,主要是指用于对大数据进行预先分类处理,以供后续的实时计算,更加具体地来说,是涉及一种流数据的分类方法及其装置和系统。

背景技术

云计算、物联网、移动互连和社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代,数据的量级、产生速率、复杂性和价值获取的实时性等要求,对大数据处理也提出了新的更高要求,以Hadoop为代表的批处理已经无法满足时代发展的浪潮。

在当下这个大数据时代,据使用场景的不同,大数据处理已经逐渐的发展向两个极端:批处理和流处理。其中,Hadoop就是批处理的代表,Hadoop是一个分布式系统基础架构,其实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce,HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。而流处理即是通过数据流计算系统来实现,其中,SAMOA、Storm(是开源出来的一个分布式的实时计算系统)和S4(Simple Scalable Streaming System的简称,其是一个分布式流处理引擎)都是当前比较典型的数据流计算系统。

其中,Storm是一个分布式的、容错的实时流计算系统,可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比Hadoop之于批处理。Storm可以很方便的对无边界的数据流进行实时处理。Storm保证每个消息都会得到处理,而且处理速度很快,即使在一个小集群中,每秒都可以处理数以百万计的消息。Storm可以用于实时分析(Realtime Analytics)、在线机器学习(Online Machine Learning)、连续计算(Continuous Computation)、分布式远程调用(DRPC)和ETL等。

SAMOA作为一个新兴的流数据处理引擎受到了业界的广泛重视,因为SAMOA不仅是一个平台而且也是一个流数据的机器学习库。在SAMOA的框架设计中不仅整合了常用的流处理引擎,如Storm和S4等,还集成了典型的非分布式流数据机器学习平台MOA(Massive Online Analysis)等。不仅如此,SAMOA允许开发人员根据问题的需要集成新的流处理引擎或者其它流数据机器学习组件于系统中。这些功能使得使用SAMOA开发流数据机器学习算法不仅方便,而且开发的分布式流数据机器学习算法,可以根据实际需要运行在多种流处理引擎上而无需任何更改。

分类是机器学习中的一个重要研究课题。它的目标是构造一个分类器,对未知类标记的属性集指定最适合的类标签。但是流数据的机器学习不同于传统的机器学习,流数据机器学习在传统机器学习的基础上结合流数据的特性又提出了新的基本要求,例如:一次处理一条数据而且只处理一次;使用有限的内存;有限的时间内完成数据处理;随时可以进行预测等等。因此在流数据机器学习设计的时候也需要将这些基本要求考虑进去。

总之,在一般的基于Hadoop构建的云服务和应用中,快速实时与大数据量往往不可兼得。如何更好更快实时地处理大量流数据,就成为云计算服务和应用必须解决的问题之一。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种流数据的分类方法及其装置和系统,用于解决现有技术Hadoop无法处理实时数据的问题。

为实现上述目的及其他相关目的,本发明提供以下技术方案:

一种流数据分类装置,包括:分布处理器模块,用于接收包括内容事件的流数据,并将所述流数据分别标记为测试数据和训练数据,及将所述测试数据和训练数据依次予以随机均衡地分发出去;属性统计处理器模块,用于将接收所述训练数据,并对所述训练数据中每个内容事件的属性信息进行统计以得到所述每个所述内容事件的属性统计信息,并将所述属性统计信息实时地更新输出;聚合处理器模块,用于接收所述属性统计信息和所述测试数据,根据所述属性统计信息计算得到所述测试数据的后验概率,并选取其中最大的后验概率作为待实时分类判定的所述测试数据的分类判定结果并予以输出。

优选地,在上述流数据分类装置中,所述测试数据和所述训练数据为同一流数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410530955.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top