[发明专利]数据处理、查询方法和装置在审
| 申请号: | 201811014687.9 | 申请日: | 2018-08-31 |
| 公开(公告)号: | CN110874366A | 公开(公告)日: | 2020-03-10 |
| 发明(设计)人: | 李炜;宋华青 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2453 |
| 代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 许红英 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 查询 方法 装置 | ||
本发明实施例提供一种数据处理、查询方法和装置,通过分析加速表得到至少一组用于生成物化表的字段组合;根据分析得到每组字段组合创建对应的物化表,实现创建生成物化表的过程自动化;进一步,使用皮尔逊相关系数的方式优化生成的物化表。从而可以根据物化表自动判断并操作哪些数据需要物化。进一步地,在查询数据是,只需查询物化表中存在输入的查询字段时,即可直接从物化表到处需要查询的数据,从而大大提高了数据查询效率。因此,可以解决现有技术中因此数据量、结构化查询语言(SQL)的复杂度等原因导致查询出数据的过程缓慢,不能满足系统响应的性能的问题。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据处理、查询方法和装置。
背景技术
目前,用户在数据分析平台执行数据查询时,由于数据量、结构化查询语言(SQL)的复杂度等原因导致查询出数据的过程缓慢,不能满足系统响应的性能。
发明内容
为了解决上述问题,本发明提供一种数据处理、查询方法和装置,可以大大提高数据查询效率。
本发明实施例提供一种数据处理方法,包括:
分析加速表得到至少一组用于生成物化表的字段组合,所述加速表是指为了提高数据查询速度而构建的用于存放用户从数据仓库中选出的数据范围的数据库;
根据分析得到的每组字段组合创建对应的物化表,所述物化表是根据所述字段组合对所述加速表中的数据范围进行查询细分的数据库。
可选地,分析加速表得到至少一组物化表的字段组合,包括:
分析所述加速表的表结构信息、表数据信息和历史查询SQL信息,根据分析的信息得到用于生成物化表的字段组合。
可选地,分析所述加速表的表结构信息、表数据信息和历史查询SQL信息,根据分析的信息得到用于生成物化表的字段组合,包括:
分析所述表结构信息,得到各个字段的数据类型;
分析所述表数据信息,根据各个字段的数据类型,确定用于生成物化表的第一字段集;
分析所述历史查询SQL信息使用的字段、过滤条件、排序条件,使用皮尔逊相关性系数计算各字段的相关性,得到第二字段集,所述第二字段集中包括多组具有高相关性的字段组合;
根据所述第一字段集和所述第二字段集确定多组用于生成物化表的字段组合。
可选地,根据分析得到的每组字段组合创建对应的物化表之后包括:
建立所述物化表与其对应的字段组合之间的映射关系。
本申请还提供一种数据查询方法,包括:
根据用户输入的字段组合,查询字段组合与物化表之间的映射关系,确定存在与所述字段组合对应的物化表;
在所述物化表中确定所述字段组合指向的数据。
可选地,查询物化表之前包括:
分析加速表得到至少一组用于生成物化表的字段组合,所述加速表是指为了提高数据查询速度而构建的用于存放用户从数据仓库中选出的数据范围的数据库;
根据分析得到的每组字段组合创建对应的物化表,所述物化表是根据所述字段组合对所述加速表中的数据范围进行查询细分的数据库。
可选地,分析加速表得到至少一组物化表的字段组合,包括:
分析所述加速表的表结构信息、表数据信息和历史查询SQL信息,根据分析的信息得到用于生成物化表的字段组合。
可选地,分析所述加速表的表结构信息、表数据信息和历史查询SQL信息,根据分析的信息得到用于生成物化表的字段组合,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811014687.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电梯断绳检测装置及电梯
- 下一篇:用于电梯的主机提升装置





