[发明专利]数据处理的方法和装置有效
申请号: | 201710859257.6 | 申请日: | 2017-09-21 |
公开(公告)号: | CN107729399B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 李树前;朱德伟 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明公开数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待处理的数据集,确定数据集具有的维度组合;基于维度组合对数据集进行处理得到对应的维度表集合;在维度表集合中,每个维度表对应一种维度组合;基于维度表集合能够进行多维度查询。该实施方式能够实现高效的多维度查询、分析数据。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理的方法和装置。
背景技术
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节。同时,用户的查询需求也越来越复杂,所涉及的数据已不仅是查询或操纵一张关系表中的一条或几条数据记录,而是对多张表中记录的成千上万条数据进行数据分析和信息综合处理,例如有一百亿条插件数据,其包括插件名字段、插件版本字段、客户端版本字段以及操作系统版本字段等信息,在这一百亿条数据中查询客户端版本为5.6.0、操作系统版本为“7.0”、插件版本为“1.3”的插件的数量,即多维度查询,按照传统的查询方法则需要进行全表扫描。
现有的大数据存储方案,适合多维度查询的数据库,可以用关系型数据库,例如关系型数据库管理系统(mysql)、甲骨文数据库(oracle),也可以用非关系型数据库,例如分布式存储系统(HBase),或者使用数据仓库(hive)。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
对于关系型数据库,当数据量达到T字节或P字节量级时候,全表扫描非常困难,若进行分库分表,比较复杂;
非关系型数据库的查询个数有限,进行聚合计算的时候,效率很低。
发明内容
有鉴于此,本发明实施例提供一种数据处理的方法和装置,能够实现高效的多维度查询、分析数据。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理的方法。
本发明实施例的一种数据处理的方法包括:获取待处理的数据集,确定所述数据集具有的维度组合;基于所述维度组合对所述数据集进行处理得到对应的维度表集合;其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询。
可选地,对所述数据集进行处理得到对应的维度表集合包括:对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;删除各所述时间数据表中的重复数据得到所述维度表集合。
可选地,对所述数据集进行处理得到对应的维度表集合还包括:获取新数据的时间戳;当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及将所述预计算数据更新至所述维度表集合。
可选地,所述时间数据表包括同一主键的多条数据,且所述时间数据表的主键是表中数据的一种数据维度组合及所述预计算数据的时间戳。
可选地,所述立体算法包括:基于所述数据集的所述维度组合对所述数据集进行映射-归纳处理得到与所述维度组合对应的至少一组所述预计算数据。
可选地,所述方法还包括:在进行查询时,获取查询条件中的待查询维度组合;确定所述维度表集合中与所述待查询维度组合对应的所述维度表;基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据处理的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710859257.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像中屋脊型边缘的快速检测方法
- 下一篇:一种基于图像的围棋棋谱识别方法