[发明专利]一种数据表比对方法和装置有效
| 申请号: | 201410653632.8 | 申请日: | 2014-11-17 |
| 公开(公告)号: | CN105677645B | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | 吴天虹 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据表 方法 装置 | ||
本申请提供一种数据表比对方法和装置。所述方法包括:为第一数据表生成第一特征值列表;为第二数据表生成第二特征值列表;比对所述第一特征值列表和所述第二特征值列表是否相同;如果所述第一特征值列表和所述第二特征值列表相同,则确认所述第一数据表和所述第二数据表中存储的数据相同。通过本申请的技术方案提高了数据表比对的效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据表比对方法和装置。
背景技术
在大数据时代,需要存储的数据越来越多,数据仓库里数据表的数据量也越来越大,有的已经达到PB级别。在对数据表进行数据计算、数据迁移等处理的过程中,经常需要比对两张数据表中存储的数据是否一致。
目前,在对比两张数据表中存储的数据是否一致时,可以将其中一张数据表复制到另一张数据表所在的数据仓库中以进行比对,然而在数据表的数据量巨大的情况下,会消耗大量的网络带宽,且耗时较长,造成数据表的比对效率低下。
发明内容
有鉴于此,本申请提供一种数据表比对方法和装置,以解决目前数据表比对效率低下的问题。
具体地,本申请是通过如下技术方案实现的:
一种数据表比对方法,所述方法包括:
为第一数据表生成第一特征值列表;
为第二数据表生成第二特征值列表;
比对所述第一特征值列表和所述第二特征值列表是否相同;
如果所述第一特征值列表和所述第二特征值列表相同,则确认所述第一数据表和所述第二数据表中存储的数据相同。
进一步地,所述方法还包括:
如果所述第一特征值列表和所述第二特征值列表不完全相同,则确认所述第一数据表和所述第二数据表中存储的数据不完全相同。
进一步地,所述为第一数据表生成第一特征值列表包括:
针对所述第一数据表的每个分区,分别计算该分区的特征值;
根据所述第一数据表的每个分区的特征值生成所述第一特征值列表。
进一步地,所述计算该分区的特征值包括:
将该分区中的每条数据转换为预设的格式;
根据预设的算法分别计算该分区中每条数据的数据特征值;
根据所述每条数据的数据特征值计算该分区的特征值。
进一步地,所述预设的算法是求和算法或哈希算法。
一种数据表比对装置,所述装置包括:
第一生成单元,为第一数据表生成第一特征值列表;
第二生成单元,为第二数据表生成第二特征值列表;
比对单元,比对所述第一特征值列表和所述第二特征值列表是否相同;
确认单元,在所述第一特征值列表和所述第二特征值列表相同时,确认所述第一数据表和所述第二数据表中存储的数据相同。
进一步地,所述确认单元,在所述第一特征值列表和所述第二特征值列表不完全相同时,确认所述第一数据表和所述第二数据表中存储的数据不完全相同。
进一步地,所述第一生成单元包括:
计算子单元,针对所述第一数据表的每个分区,分别计算该分区的特征值;
生成子单元,根据所述第一数据表的每个分区的特征值生成所述第一特征值列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410653632.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种按摩器
- 下一篇:眼部高压氧综合治疗仪





