[发明专利]基于条件生成模型的近似查询处理算法有效
申请号: | 202110487805.3 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113177078B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 白文超;韩希先;何京璇 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 马千会 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 生成 模型 近似 查询 处理 算法 | ||
本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。基于条件生成模型的高效近似查询处理算法,包括:采用聚集预计算获得用户查询的预聚集值;对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ以及选择的预聚集值;构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;对生成的数据样本进行过滤,并将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值。本发明的方法构建了一种高效的深度生成模型,并引入Wasserstein距离作为误差衡量,消除模型坍塌;将该模型应用于近似查询,并与聚集预计算相结合,同时采用表决算法,降低近似查询误差。
技术领域
本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。
背景技术
随着信息技术的快速发展,数据量呈爆炸性的速度持续增长,使得传统的数据库系统软件难以在交互式响应时间内回答用户的聚集查询。而在具体的决策分析任务中,用户通常只需要从数据中获取大致的趋势,不要求精确的结果。而且,在实际情况中,数据分布并不均匀,存在严重的偏斜问题。因此,如何在海量的偏斜数据中以更快的响应速度获取精度较高的查询结果具有重要的意义。
近似查询处理(Approximate Query Processing,AQP)算法(CHAUDHURI S,DINGB,KANDULA S.Approximate query processing:no silver bullet[C]//Proceedings ofthe 2017ACM International Conference on Management of Data,Chicago,May 14-19,2017.New York:ACM,2017:511-519.)以牺牲一定的精度为代价来换取更快的查询响应速度,保证了用户的交互性需求,成为了近年来数据库查询领域的一大研究热点。目前,近似查询处理方法大致可分为三类。第一类是基于抽样的近似查询处理(Sampling-basedApproximate Query Processing,SAQP)(LI K Y,LI G L.Approximate queryprocessing:what is new and where to go?[J].Data Science and Engineering,2018,3(4):379-397.),它以抽样的方法创建一个随机的数据样本,并将该样本作为原始数据的摘要,估计查询结果。SAQP方法原理简单,适用于大多数通用查询,但该方法生成的样本往往不能代表总体数据集,尤其在面临高度偏斜的数据时,基于随机抽样的SAQP算法不能为稀有数据生成足够的样本,影响估计结果的准确性(OLKEN F,ROTEM D.Random samplingfrom databases:a survey[J].Statistics and Computing,1995,5(1):25-42.)。基于分层抽样的SAQP算法可以克服数据偏斜问题,但分层抽样依赖于对数据分布的先验知识,只适用于特定数据的查询,不具有一般性(PANAHBEHAGH B.Stratified and rankedcomposite sampling[J].Communications in Statistics-Simulation andComputation,2020,49(2):504-515.)。另一类是聚集预计算(Aggregate Precomputation,AggPre)(ESCOBAR P,CANDELA G,TRUJILLO J,et al.Adding value to linked open datausing a multidimensional model approach based on the RDF data cubevocabulary-science direct[J].Computer StandardsInterfaces,1994,5(1):25-42.),该方法预先计算一些聚集查询的结果,之后使用该结果快速地回答用户查询。但AggPre方法的查询效率取决于预聚集值的计算,有限数量的预聚集值很难提供足够准确的查询结果,而预先计算较多的聚集值却将花费大量的存储空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110487805.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机器人头部运动机构
- 下一篇:一种吹胀板散热器及变频设备