[发明专利]一种面向非等值连接负载的数据生成方法及生成系统有效
| 申请号: | 202010053458.9 | 申请日: | 2020-01-17 |
| 公开(公告)号: | CN111240988B | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 张蓉;李宇明 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36 |
| 代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 陈艳娟 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 等值 连接 负载 数据 生成 方法 系统 | ||
本发明提出了一种面向非等值连接负载的数据生成方法,包括查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
技术领域
本发明涉及数据生成技术领域,尤其涉及一种面向非等值连接负载的数据生成方法及生成系统。
背景技术
在数据库管理系统测试、数据库应用压力测试和应用驱动的测试基准的工作中,常常关注一些关键Query的系统性能。
1.数据库管理系统测试(DBMS testing):论文[1-4]认为在数据库管理系统测试中能够控制查询操作的中间结果集大小是非常有意义的。当开发了一个新的数据库管理系统组件(Join算子、内存管理器等)时,需要一个具有某种负载特征的模拟数据库实例以评测新组件的性能。
2.数据库应用压力测试(Stress testing database applications):在开发一个做海量数据分析的数据库应用时,需要一个与应用负载特征相关的模拟数据库实例以评测该数据库应用的性能。
3.应用驱动的测试基准(Application-driven benchmarking):应用开发者在选择支撑应用的数据库管理系统时,需要针对自己的应用负载来选择适合的数据库管理系统,但是由于数据的隐私性问题,需要生成一个与真实数据库实例在相同查询负载下性能数据一致的模拟数据库实例以评测待选择数据库管理系统的性能。
基于时空数据的非等值连接负载已成为现实应用中的不可或缺的一部分,如何生成一个满足多Query非等值连接基数约束的数据库实例是一个很难、也亟需解决的问题。
当前数据生成主要有两条路线:一个是从数据特征角度生成数据,一个是从负载特征角度生成数据。由于复杂的负载特征以及数据特征上的约束使得属性之间具有复杂的关联关系,可能导致数据生成需要大量的存储和计算并且难以实现并行化。如果仅从数据特征角度生成模拟数据库实例,由于没有考虑查询负载,在相同的查询负载下模拟数据库实例与真实数据库实例的性能数据难以一致。[1-4]与本文一样,都是从负载特征角度生成模拟数据库实例。[1-3]是一个系列的工作。其中[1]针对每一个Query生成一个单独的数据库实例;[2-3]的工作继承于[1],使用启发式算法尽可能融合利用[1]生成的针对多个Query的多个数据库实例,但是不能保证最终仅生成一个数据库实例,并且也难以实现数据生成的完全并行化。[4]利用概率图模型的思想来表示数据分布,但是针对含有多维度数值型属性的基数约束,其算法复杂度太高。非等值连接负载作为一个非常重要和复杂的查询负载,工作[1-4]都无法处理该类型负载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010053458.9/2.html,转载请声明来源钻瓜专利网。





