[发明专利]一种浏览云端海量数据的方法及装置有效

专利信息
申请号: 201210193194.2 申请日: 2012-06-12
公开(公告)号: CN103488643A 公开(公告)日: 2014-01-01
发明(设计)人: 周俊;蒋耘;代斌;初敏;刘时光;邓钟强;蔡宁;杨旭 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 浏览 云端 海量 数据 方法 装置
【说明书】:

技术领域

本申请涉及数据处理领域,具体涉及一种浏览云端海量数据的方法及装置。

背景技术

随着云计算的发展,海量数据中数据表的概念已经不再是传统意义上的单个数据文件,在很多情况下,一个目录下的所有数据文件都属于一张数据表,且每张数据表的总字节数已经达到了TB级别(Terabyte太字节)。同时数据库里面也不再只是十几张数据表,通常在数百张甚至到几千张,且每张数据表中的字段数也在数十个以上,而且经常随着业务发展在变化。

在这样的海量数据库中进行数据统计分析,必须具备快捷的数据格式定义和编辑功能,同时还必须具备对原始数据进行灵活快速预览的功能。而现有技术中修改云端数据对应的数据格式,需要将云端数据全部下载后使用数据格式对全部云端数据进行加载才能够生成预览;对于达到TB级别的完整数据在网络上下载所耗费的时间和资源都是惊人的,下载数据、进行一次数据格式加载并展现数据所占用的时间往往可达到5分钟甚至更长。因此,现有技术的缺陷主要在于,现有操作需要将海量的完整数据通过网络下载到本地,这导致了数据呈现的速度和效率必然受到极大影响,并且由于需要下载存储海量数据本地硬盘的存储空间也要相应增加,这也将成为一种额外的负担。

再者,对于原始数据表的预览,现有技术默认只能从首行开始预览,如果需要预览数据表中某一行数据时,则需要下载该表对应的数据文件首到指定行之间的完整数据后方能开始展现。因此,现有技术的缺陷还在于,需要消耗较大内存且需要等待较长的磁盘读写时间,对于网络下载完整数据本身所消耗的时间和资源也会极大降低用户体验;同时也缺乏让用户可以对数据表中某个指定位置的数据进行浏览的功能,缺乏灵活性。

同时,现有技术的缺陷还在于,编辑数据文件的数据格式时,用户需要进行数据格式中的多个参数进行修改,但是现有技术缺乏编辑与预览同时进行的功能,无法在进行每一个参数修改后就实时获取到数据格式修改后的数据,必须要等到对数据格式中的所有参数都完成编辑后才能看到数据格式最终的修改效果,这就导致数据格式修改后所得到的数据的呈现效果不能被及时获知,无法直观地判断数据格式的修改是否为期望的目标,只要出现一处错错误,就得回退到之前编辑界面重新调整数据结构,这一缺陷势必会造成整个编辑过程的效率低下,甚至造成用户通常需要多次修正才能找到适合的数据结构,从而带来大量的无用的额外操作。

此外,现有技术的缺陷还在于,编辑数据文件的数据格式时,用户需要进行数据格式中的多个参数进行修改,现有技术不能实时地在每一个参数修改后就自动检测修改的合法性,必须等到对数据格式中的所有参数都完成编辑后才能够获知数据格式修改的合法性,这一缺陷显然也会引起编辑过程的效率低下,尤其对于数据格式的设置经验不足的用户来说。

最后,现有技术的缺陷还在于,对数据格式进行多次修改后,现有技术不能保存完整的修改记录,使得用户无法查看详细的修改历史,同时在当前数据格式修改发生异常时也不能进行回溯,无法保证数据格式修改的安全性。

发明内容

本申请所要解决的技术问题在于提供一种浏览云端海量数据的方法及装置,通过对一小段采样数据的处理就可以获知数据格式的设定是否合理,进而可以将合理的数据格式推广至云端存储的完整数据,从而解决了需要将海量的完整数据全部下载下来之后才能验证数据格式的弊端,这种方式避免了海量数据全部下载到本地所消耗的时间和资源;同时在进行原始数据快速预览时,引入了让用户指定预览位置的方式,快速地读取指定位置的数据内容,提高查询效率的同时增加了数据预览的用户体验的灵活性,通过以上两种方式在读取、编辑数据格式时大大减少了重复性操作,处理效率显著提升,在应对海量数据分析和统计过程中处理效率的提升尤为明显。

为了解决上述问题,本申请揭示了一种浏览云端海量数据的方法,包括:由云端存储的完整数据中预采样一指定大小的数据段放置到本地内存;根据用户的输入设置所述数据段的数据格式,使用所述数据格式解析所述数据段,根据解析所得到的效果检测所述数据格式的合法性;在所述数据格式合法时,根据所选择的意图浏览的数据范围由云端存储的完整数据中截取相应大小的数据段放置到本地内存;使用所述数据格式解析所述数据段并展现。

进一步地,所述数据格式,包括以下一种或多种的组合:数据编码类型、行分隔符、列分隔符、各列的列名及列数据类型。

进一步地,根据用户的输入设置所述数据段的数据格式,包括:将所述数据格式的设置内容保存为历史内容并提供入口供查看;依据所述数据格式的设置内容保存回溯点,依据所述回溯点生成若干对应的数据格式的版本供选择回溯。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210193194.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top