[发明专利]数据查询处理方法及装置在审
申请号: | 201610247009.1 | 申请日: | 2016-04-20 |
公开(公告)号: | CN107305554A | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 孙珏;陈京京 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天知识产权代理有限公司72003 | 代理人: | 周滨,章侃铱 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 查询 处理 方法 装置 | ||
技术领域
本发明涉及数据库技术领域,具体而言,涉及一种数据查询处理方法及装置。
背景技术
目前,大数据统计已应用于社会各个行业领域中,数据分析技术也随之发展。在销售领域中,在进行销售数据统计时,通常会利用数据库自关联查询技术,来分析个体销售或消费行为的历史数据,从而得出可预计未来销售或消费行为的倾向性。但销售数据量往往都是数以亿计的,将其中任一数据字段进行自关联,都意味着数亿的平方数量级的运算,普通运算系统难以承受如此大的运算负荷。特别是对于保险公司而言,为了进行核保作业,每天都需要对每个销售代理人均计算统计出其过往销售历史数据,以验证其当日销售保单的风险值。
发明内容
本发明提供一种数据查询处理方法及装置,能够加快数据查询处理时间,提升处理效率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供了一种数据查询处理方法,包括:根据查询需求,在待处理数据表中建立分布键;根据所述分布键,拆分所述待处理数据表,以建立多个分布式数据表;为每个所述分布式数据表分配一个处理进程;以及利用多线程操作,根据所述查询需求,基于每个分布式数据表,进行数据查询操作。
根据本发明的一实施方式,根据所述查询需求,基于每个分布式数据表,进行数据查询操作包括:在每个分布式数据表中进行所述查询需 求所需的自关联数据查询。
根据本发明的一实施方式,利用多线程操作,根据所述查询需求,基于每个分布式数据表,进行数据查询操作之前还包括:为每个所述分布式数据表进行同类数据查重及删除操作。
根据本发明的一实施方式,为每个所述分布式数据表进行同类数据查重及删除操作包括:针对每个所述分布式数据表,判断其中是否存在重复的同类数据;如果其中有重复的同类数据,则删除所述同类数据,并将删除所述同类数据后的所述分布式数据表保存为分布式数据中间表;以及根据所述查询需求,基于每个分布式数据表,进行数据查询操作包括:根据每个所述分布式数据表及其对应的所述分布式数据中间表,进行所述查询需求所需的互关联数据查询。
根据本发明的一实施方式,所述同类数据根据所述查询需求确定。
根据本发明的另一方面,提供了一种数据查询处理装置,包括:分布键建立模块,用于根据查询需求,在待处理数据表中建立分布键;数据表拆分模块,用于根据所述分布键,拆分所述待处理数据表,以建立多个分布式数据表;进程分配模块,用于为每个所述分布式数据表分配一个处理进程;以及数据查询模块,用于利用多线程操作,根据所述查询需求,基于每个分布式数据表,进行数据查询操作。
根据本发明的一实施方式,所述数据查询模块包括:自关联查询子模块,用于在每个分布式数据表中进行所述查询需求所需的自关联数据查询。
根据本发明的一实施方式,该装置还包括:同类数据删除模块,用于在所述数据查询模块进行所述数据查询操作之前,为每个所述分布式数据表进行同类数据查重及删除操作。
根据本发明的一实施方式,所述同类数据删除模块包括:同类数据判断子模块,用于针对每个所述分布式数据表,判断其中是否存在重复的同类数据;及同类数据删除子模块,用于当所述同类数据判断子模块判断所述分布式数据表中有重复的同类数据时,删除所述同类数据,并将删除所述同类数据后的所述分布式数据表保存为分布式数据中间表;以及所述数据查询模块包括:互关联查询子模块,用于根据每个所述分 布式数据表及其对应的所述分布式数据中间表,进行所述查询需求所需的互关联数据查询。
根据本发明的一实施方式,所述同类数据根据所述查询需求确定。
根据本发明的数据查询处理方法,通过将大数据量的数据表根据分布键进行拆分,拆分出多个分布式的子表,且利用多线程操作分布式地处理各个子表,大大加快了数据查询的处理时间,提升了数据查询效率。经测算,以一千万条数据量的数据表为例,作业时间可以由原先的二十几个小时缩短至半个小时左右,数据查询处理时间明显降低,效果十分显著。
另外,根据一些实施例,本发明的数据查询方法进一步对拆分的分布式数据表中的同类数据进行查重及删除操作,采用该操作后进一步减少了需统计数据量的规模,从而可以进一步减少数据查询处理的时间,进一步提高处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610247009.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置