[发明专利]一种大数据的分析方法及系统有效
| 申请号: | 201611254475.9 | 申请日: | 2016-12-30 |
| 公开(公告)号: | CN108268468B | 公开(公告)日: | 2021-01-26 |
| 发明(设计)人: | 白云骐 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/2455;G06F16/22;G06F9/54 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 牛峥;王丽琴 |
| 地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 分析 方法 系统 | ||
本发明公开了一种大数据的分析方法及系统,本发明实施例在将大数据按时间分片存储在分布式数据库的同时,在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表,索引表中设置了对应大数据在原始数据临时表中的位置信息,在进行大数据分析时,直接根据服务器中的索引表从原始数据临时表调用大数据即可,由于在分析大数据时,采用的是二级索引方式,得到分析结果存储在分布式数据库的分析结果表中,不需要到分布式数据库中海量的大数据中获取大数据,所以耗时短且易于实现。更进一步地,大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息,是唯一标识且反映了大数据被调用的过程。
技术领域
本发明涉及计算机网络技术,特别涉及一种大数据的分析方法及系统。
背景技术
随着计算机网络技术的发展,在网络中的数据存储量越来越大,称为大数据的存储。在计算机网络中,需要对存储的大数据进行大数据分析,这时,就需要准确且快速的获取到对应的大数据。大数据分析已经越来越多的应用在计算机网络中,通过大数据分析能够将看似不相干的存储在不同设备中的零散数据转化成和业务息息相关的信息,例如系统间调用关系或用户购买习惯等,如何更快地在大数据分析出想要的结果,就成为了大数据分析的关键,更快地分析意味着能更快的提供确定的大数据给大数据使用者,能更快地知道问题点或业务发展的方向,在计算机网络这个快速发展的行业,快就意味着效益。
在计算机网络中,为了准确获取大数据且保证大数据的获取效率,对大数据的分析可以采用各种方式,具体地说,一般采用以下几种大数据的分析方式:
第一种大数据分析方式,对大数据进行拆分后,分库分表存储在计算机网络中的关系型数据库中,比如Oracle、MySql数据库等,根据业务编写存储过程从数据库中获取数据并进行分析,形成结果存储在结果表中。关系型数据库实际上就是由关系模式和关系实例组成,关系模式用来描述关系表中的列,关系实例为关系中的各行,因此,是采用一张张具有行和列的表来存储大数据并后续根据表来获取并分析大数据。
第二种大数据分析方式,将大数据存储在开源的分布式文件系统中,简称HDFS,也就是按照时间先后顺序以流的形式将大数据逐条读入到设置的分析程序中,然后汇总存储在HDFS。在获取时,也是运行分析程序,然后按照时间顺序以流的形式将大数据逐条读出。
第三种大数据存储方式,将大数据存储在Hbase数据库中,编写MapReduce程序对大数据进行分析计算,并将分析计算结果存储到结果表中,Hbase数据库是基于HDFS的一个分布式的、面向列的开源数据库,它提供给用户的是一个高可靠性、高性能、列存储、可伸缩及实时读写的数据库系统。
采用上述三种大数据分析的方式,都不能保证根据分析结果能够准实时的将大数据分析给用户,准实时的时长为1分钟到5分钟,特别是第一种方式,在大数据场景下,比如几十上百个G的数据,使用存储过程的方式,通常会耗时几十分钟到几天的时间不等,分析大数据的时间比较长。
采用第二种方式或第三种方式需要的一个前提条件是,在基础大数据已经全部准备完成的情况下,才能够进行分析计算,得到分析结果。在特定场景下,不能保证在用户查询时,大数据就一定能够全部准备完成,例如:用户查询计算机网络中的客户端和服务器端的一个业务相应调用关系,比如调用耗时和网络耗时等,如果此时服务器端一直在处理大数据并没有返回客户端,那么这次查询需要的大数据就没有准备好,也就不能进行大数据分析并输出分析结果,这为大数据存储带来了时间成本和资源成本。
采用第三种方式的开发及维护的成本是相当高的,采用第一种方式对于关系型数据库要求非常高,例如MySQL数据库,通常在处理海量大数据时,需要使用集群技术,而MySQL数据库一般并不支持集群的,维护这样一个集群需要相当专业的维护人员及开发人员;而采用第二种方式及第三种方式也需要额外学习开发维护流式计算机框架及MapReduce执行程序,这些都是在学习使用Hbase数据库之外的开发使用及维护成本。
综上,采用上述三种方式对大数据进行分析,存在着时效长且不容易实现的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611254475.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





