[发明专利]数据处理方法、装置及存储介质在审

专利信息
申请号: 202110623699.7 申请日: 2021-06-04
公开(公告)号: CN113360581A 公开(公告)日: 2021-09-07
发明(设计)人: 王明威;曹磊 申请(专利权)人: 北京自如信息科技有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06F16/27
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 张琳琳
地址: 101500 北京市密云区经济开*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置 存储 介质
【说明书】:

发明提供了种数据处理方法、装置及存储介质,包括:获取实时的业务数据并同步至数据仓库中;以及基于Airflow进行微批次任务调度,本发明通过采用了Hive‑SQL和Airflow相结合的方式,周期地进行微批次计算,通过SQL任务脚本实现业务逻辑并计算数据指标,并通过Airflow实现微批次计算任务调度。一方面不但降低了数据的开发门槛,而且减少工作量,极大的缩短开发周期。另一方面Airflow的计算周期又满足了数据时效性的要求,同时该方法在后期的任务维护以及任务稳定性上都具有良好的优势,避免代码的二次开发。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种应用于租房大数据的数据处理方法、装置及存储介质。

背景技术

大数据行业发展趋势迅猛,根据国际权威机构Statista的统计和预测,2020年全球数据生产量已达到47ZB,而到了2035年这一数字将达到2142ZB,全球数据量就迎来更大规模的爆发。

伴随着数据量呈现指数式的增长,对数据的分析需求也越来越多。而众多需求中对数据的时效性要求也越来越高,传统的数据计算周期分为离线计算和实时计算俩种,常见离线计算的计算周期为1天,时间较长,不能快速捕捉市场变化,实时计算主要使用SparkStreaming(Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理)或者Flink(Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序)等实时计算框架,这对集群性能和开发人员要求较高。

发明内容

有鉴于此,本发明实施例提供了一种数据处理方法、装置及存储介质,以解决现有技术中存在的技术问题。

第一方面,本发明提供一种数据处理方法,包括如下步骤:获取实时的业务数据并同步至数据仓库中;以及基于Airflow进行微批次任务调度,依次执行SQL任务脚本中的计算任务得到所述数据指标;所述SQL任务脚本用以根据业务逻辑从所述数据仓库中获取指标数据,并将所述指标数据进行筛选得到对应的数据指标,所述指标数据包括于所述业务数据中。

在一实施例中,在所述基于Airflow进行微批次任务调度,依次执行所述任务脚本中的计算任务的步骤中,具体包括如下步骤:存储所述实时业务数据至分布式文件系统中;依次将任务脚本中的计算任务建立有向无环图,所述有向无环图用以描述业务数据的计算过程;设置任务调度参数;以及根据所述有向无环图执行所述任务脚本中的计算任务。

在一实施例中,在根据所述有向无环图执行所述任务脚本中的计算任务步骤后,还包括如下步骤:当所述计算任务的时间大于一阈值时,则对所述计算任务进行负载均衡或增加系统内存。

在一实施例中,所述任务调度参数包括:计算时间范围、计算周期以及相同的有向无环图同时在线运行的最大个数;所述计算周期为8~15min。

在一实施例中,在所述依次执行所述任务脚本中的计算任务得到所述数据指标的步骤中,所述计算任务的计算过程具体为:根据业务逻辑从所述数据仓库中获取指标数据;以及根据筛选条件筛选得到对应的数据指标。

在一实施例中,所述的方法还包括:将所述计算数据导出至应用终端,由所述应用终端实时显示所述数据指标。

在一实施例中,在所述获取实时业务数据并同步至数据仓库中的步骤之前,还包括如下步骤:在所述数据仓库与数据库之间建立数据传输链路,所述数据库包括所述业务数据。

第二方面,本发明提供一种数据处理装置,包括:获取模块,用以获取实时的业务数据并同步至数据仓库中;计算模块,基于Airflow进行微批次任务调度,依次执行SQL任务脚本中的计算任务得到所述数据指标;所述SQL任务脚本用以根据业务逻辑获取指标数据,并进行筛选得到对应的数据指标,所述指标数据包括于所述业务数据中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京自如信息科技有限公司,未经北京自如信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110623699.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top