[发明专利]一种数据管理方法和装置在审
申请号: | 202010847850.0 | 申请日: | 2020-08-21 |
公开(公告)号: | CN112015725A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 广州欢网科技有限责任公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 刘明华 |
地址: | 510000 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据管理 方法 装置 | ||
本发明提供了一种数据管理方法和装置,涉及数据库技术领域,主要解决了对云平台的数据进行合理分类方便维护技术问题。该发明包括:确定数据的特征信息,所述特征信息为两种;将所述特征信息作为所述数据在云端的目录项,所述目录项为两级目录,每级目录对应一种特征信息;以及,将所述特征信息作为所述数据在大数据处理平台内的位置信息;根据所述目录项和所述位置信息,将所述数据关联存储在所述云端和所述大数据处理平台内。因此,本发明可快速从云端调取数据,也节约了服务器的成本,降低损耗;本发明对不同数据进行清洗分类,可快速接入新数据,可长期维护,可清晰进行数据备份,可以满足大部分需求,大幅降低维护成本。
技术领域
本发明涉及数据库技术领域,尤其涉及基于云平台数据目录和hive数据库技术领域的一种数据管理方法和装置。
背景技术
目前,Hadoop数据平台是业界最流行的大数据处理平台,每天要处理几百甚至上千的数据处理任务,用于为业务部门提供相应的数据支持,基于这些任务的背后,需要解决复杂的数据来源(可能是几十路、上百路)如何分层与存储;根据不同的数据源清洗的基础数据如何分层与存储;固定的维度数据、项目数据、备份数据、基础数据融合的数据、基础数据的报表数据等数据如何分层与存储。
因此,常用hive来进行处理,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
然而,当前业界关于数据分层的主要概念还是按照传统的数据仓库概念,比如ods,dw,dm等,存在以下问题:
1)ods层主要用于数据源的处理,是最真实数据源表现,原始数据可能是非结构化的,这部分数据还得单独处理,这将导致原始数据与处理后的数据都放在ods层,在做数据备份时会有数据冗余。
2)dw层主要用于从ods层抽取维度表和事实表,但是在大数据场景下由于数据是列式存储带压缩,而且在hive场景下关联操作(也称join操作)非常的慢。
3)dm层主要用于提供具体业务或项目使用的数据,一个大数据平台肯定包含很多项目,将很多项目放到同一层下,互相之间耦合。
以上的数据仓库设计仅仅是概念上的,对于用户还是不能直观的设计出合理的hive数据仓库。
并且,现有技术常常把数据存储在云存储中,以方便数据存储和获取。但是,云数据目录可以分多层级,所以会设计很多层级用于分类数据,甚至到6、7层。其实这是很不合理的设计,原因有两个:
1)数据源种类很多,无法穷举所有情况,而且肯定会发生目录冲突,如果之后发生冲突又很难修改(因为涉及大量数据的迁移问题)冲突无法修改,会导致分类目录乱掉;
2)数据目录越深管理和维护数据越麻烦。
发明内容
本发明其中一个目的是为了提出一种数据管理方法和装置,以解决现有技术中对云平台的数据进行合理分类方便维护的技术问题。本发明优选实施方案中能够达到诸多有益效果,具体见下文阐述。
为实现上述目的,本发明提供了以下技术方案:
本发明的一种数据管理方法,其包括:
确定数据的特征信息,所述特征信息为两种;
将所述特征信息作为所述数据在云端的目录项,所述目录项为两级目录,每级目录对应一种特征信息;以及,将所述特征信息作为所述数据在大数据处理平台内的位置信息;
根据所述目录项和所述位置信息,将所述数据关联存储在所述云端和所述大数据处理平台内。
进一步的,所述确定数据的特征信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州欢网科技有限责任公司,未经广州欢网科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010847850.0/2.html,转载请声明来源钻瓜专利网。