[发明专利]数据处理方法、系统、装置和计算机可读存储介质有效

申请号：	201910377326.9	申请日：	2019-05-07
公开（公告）号：	CN111913949B	公开（公告）日：	2023-09-01
发明（设计）人：	姚再毅	申请（专利权）人：	北京京东振世信息技术有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/28
代理公司：	北京成创同维知识产权代理有限公司 11449	代理人：	蔡纯;冯丽欣
地址：	100086 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法系统装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供数据处理方法、系统、装置和计算机可读存储介质。该数据处理方法包括：获取多个表的表数据；将多个表的表数据分别存储到多个数据单元中，多个表和多个数据单元一一对应；从多个数据单元中获取多个表的表数据，并基于多个表的关联关系组织多个表的表数据，以得到文档数据；以及将文档数据存储到集群上，其中，集群上部署有全文检索服务，文档数据根据全文检索服务提供的接口进行组织和存储。本发明利用全文检索服务检索文档数据组织和存储文档数据，从而规避了传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点，使得海量数据检索同时具有实时性和高效性的优点。

技术领域

本发明涉及互联网技术领域，具体涉及一种数据处理方法、系统、装置和计算机可读存储介质。

背景技术

随着互联网+技术蓬勃发展，每天都产生海量的数据，在海量运营数据中，公司决策层对公司营业状况的实时指导、决策、监控具有强烈的需求，报表系统的出现可以轻松满足这个需求。

传统关系型数据库查询方式，在对现有数据进行查询生成报表数据时，存在着大量针对多张数据库表进行随机查询的情况，而且大多数是表连接查询操作。在数据总量小于千万级别时，传统处理方式数据库响应时间能被优化到秒级以内。但是当查询数据总量超过几亿甚至是上十亿的时候，传统关系型数据库查询方式无论如何优化或者是更换索引机制，不仅无法满足快速响应的多并发要求，而且查询数据时对数据库造成很大的压力，甚至直接拖垮数据库服务。

传统关系型数据库无法支撑之后，衍生出离线处理方式，即将数据导入数据仓库(hive)中，进行离线计算，再对离线计算结算进行查询。离线数据仓库都是T+1离线分析数据，运营人员今天看昨天的数据报表，无法第一时间监控当前运营实时生产情况，随着大家对数据及时性的要求越来越高，实时计算应景产生。

综上，传统关系型数据库查询方式和离线处理方式各有缺点。传统关系型数据库查询方式由于报表系统的数据会涉及大量表关联查询、跨库和跨表查询，因此只能将业务表整合形成一个大数据表，虽然大数据表在系统中所占比例极小，但一个大数据表按照某一维度频繁查询统计多项指标数据时，由于各个事务都会争用同一个大数据表的资源而使效率低下，成为系统正常运行的性能瓶颈。离线处理方式虽然解决了传统关系型数据库性能瓶颈问题，但及时性不够，不能对运营生产数据实时形成监控，无法实时做出决策并指导生产。在当前互联网生态圈中，时间决定一切，这样显示无法满足运营决策分析要求。

发明内容

有鉴于此，本发明实施例提供数据处理方法、系统、装置和计算机可读存储介质，以解决传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点。

第一方面，本发明实施例提供一种数据处理方法，包括：

获取多个表的表数据；

将所述多个表的表数据分别存储到多个数据单元中，所述多个表和所述多个数据单元一一对应；

从所述多个数据单元中获取所述多个表的表数据，并基于所述多个表的关联关系组织所述多个表的表数据，以得到文档数据；以及

将所述文档数据存储到集群上，

其中，所述集群上部署有全文检索服务，所述文档数据根据全文检索服务提供的接口进行组织和存储。

可选地，监控并解析数据库操作日志，以实时地获取多个表的表数据。

可选地，所述多个表中任意两个表之间具有下述关联关系中的至少一种：一对一关系、多对一关系和多对多关系。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载