[发明专利]一种基于流数据的实时建宽表的方法有效
| 申请号: | 202210204367.X | 申请日: | 2022-03-03 |
| 公开(公告)号: | CN114265875B | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 唐建法;肖贝贝;黄佳钦;欧阳世雄 | 申请(专利权)人: | 深圳钛铂数据有限公司 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/21;G06F16/23;G06F16/25;G06F16/27;G06F16/2458;G06F16/28 |
| 代理公司: | 深圳汉林汇融知识产权代理事务所(普通合伙) 44850 | 代理人: | 刘临利 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 实时 建宽表 方法 | ||
本申请公开了一种基于流数据的实时建宽表方法,至少包括以下步骤:数据引擎采集数据,保存至数据库中;将采集到的所述数据转化为结构化数据;将所述结构化数据保存到数据缓存库;模型计算引擎接收数据更新事件,根据所述结构化数据与目标模型是否存在映射关系,提取与目标主表相关联的所述结构化数据,更新到所述目标主表中。该方法具有实时性高、灵活性高、快速响应、全局模型关联、支持跨库乱序的特性。
技术领域
本申请涉及一种基于流数据的实时建宽表的方法,属于数据处理领域。
背景技术
无论是传统数仓建设,还是现代数据驱动的应用业务,大部分的数据开发工作就是要构建一些新的数据表,为各种分析模型或业务模型服务。特别是互联网公司由于数据量普遍偏大,多表关联的方式通常不会被采用。这种情况下构建宽表用于支持各种业务查询是非常主流的数据开发工作。
传统的建模、建表都是基于SQL来完成的。基于SQL的方式有这些局限性:
1、目标模型表和原始表数据脱节:
SQL是基于一个固定数据集来进行查询计算并输出到目标表的方式,适合于定期批量运算。如果涉及到的原始表比较大,那这种操作往往会需要执行数分钟甚至数小时,这样会造成目标的数据无法反应当前真实的状态。
2、并发任务性能瓶颈:
由于传统建模的全表计算模式,在数仓内同时进行的任务基本不能超过2-3个。这个严重限制了传统数据平台跑批建模的能力。
发明内容
根据本申请的一个方面,提供了一种基于流数据的实时建宽表的方法,该方法具有实时性高、灵活性高、快速响应、全局模型关联、支持跨库乱序的特性。
基于流数据的实时建宽表的方法,至少包括以下步骤:
数据引擎采集数据,保存至数据库中;
将采集到的所述数据转化为结构化数据;
将所述结构化数据保存到数据缓存库;
模型计算引擎接收数据更新事件,根据所述结构化数据与目标模型是否存在映射关系,提取与目标主表相关联的所述结构化数据,更新到所述目标主表中。
可选地,所述数据缓存库为MongoDB。
可选地,所述结构化数据保存在所述数据缓存库的统一数据缓冲层中。
可选地,所述统一数据缓冲层为FDM层。
可选地,所述数据引擎采集数据的同时,日志采集器形成数据日志,并将所述数据日志保存到所述数据缓存库的日志存储中心;
所述日志存储中心将所述数据日志与任务采集器同步,从而实现数据日志与用户目标数据库的共享。
可选地,所述模型计算引擎接收数据更新事件,包括:
所述模型计算引擎接收到的数据更新日志;
发送数据库共享关联指令;
若数据日志与用户目标数据库的共享成功,逐步判断所述数据更新日志是否包含日志采集任务,所述日志采集任务是否包含所需要的表,所述日志采集任务的起始采集时间是否早于上一次同步任务的起始时间,如是,则通过所述日志存储中心读取数据日志,作为增量数据日志;
若数据日志与用户目标数据库的共享不成功,或所述数据更新日志不包含日志采集任务,或所述日志采集任务不包含所需要的表,或所述日志采集任务的起始采集时间晚于上一次同步任务的起始时间,则所述模型计算引擎直接读取所述数据库中的数据日志,作为增量数据日志。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳钛铂数据有限公司,未经深圳钛铂数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210204367.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





