[发明专利]一种数据检测方法和装置有效
| 申请号: | 201510419821.3 | 申请日: | 2015-07-16 |
| 公开(公告)号: | CN106649056B | 公开(公告)日: | 2019-07-02 |
| 发明(设计)人: | 梁永锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F11/34 | 分类号: | G06F11/34 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 检测 方法 装置 | ||
本申请实施例提供了一种数据检测方法和装置。该数据检测方法包括:当对指定文件的数据进行同步时,获取同步数据的参数信息,所述参数信息与所述同步数据相关联;确定已获取的所述指定文件对应的各参数信息是否存在空缺;若是,则确定所述指定文件存在数据丢失。该检测方法不仅提高了对丢失数据的检测准确度,而且检测过程简单易行,检测效率较高。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据检测方法和一种数据检测装置。
背景技术
在各种web应用中,会有很多日志文件不断产生,比如页面上用于记录用户行为的埋点日志等。这些日志分布在很多台服务器上,可以多达10W台服务器,每台机器上又有多个日志文件。业务上需要将这些日志文件同步到数据仓库系统中进行分析,那么,在同步过程中需要保证数据不丢失,才能为业务提供真正的保障。
目前,在海量数据的同步过程中,有两种方案用于检测数据是否丢失。一种是抽样检查,在日志中定时输出有规律的日志,然后在目标地(数据仓库系统)检测这些规律日志是否存在。如果这些规律日志不存在,就认为数据丢失。另外一种是最终一致性检查,在数据收集过程中将文件的最后记录数发送给目标地,然后在目标地统计出最终收到的记录数,如记录数不一致则认为数据丢失。
然而,对于抽样检查,由于存在一定的抽样率,极易出现数据丢失但无法检测到的情况。对于最终一致性检查,在数据传输的过程中,时常出现数据重复的情况,如果没有去重,那么在目标地统计出来的最终记录数很多情况下是不准确的。由此可见,上述检测方式对丢失数据的检测准确度较低。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何提高对丢失数据的检测准确度。
发明内容
本申请实施例所要解决的技术问题是提供一种数据检测方法,能够提高对丢失数据的检测准确度。
相应的,本申请实施例还提供了一种数据检测装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请公开了一种数据检测方法,包括:
当对指定文件的数据进行同步时,获取同步数据的参数信息,所述参数信息与所述同步数据相关联;
确定已获取的所述指定文件对应的各参数信息是否存在空缺;
若是,则确定所述指定文件存在数据丢失。
进一步,所述确定已获取的所述指定文件对应的各参数信息是否存在空缺,包括:
将获取的所述同步数据的参数信息插入所述指定文件的参数信息链表中,所述参数信息链表中包含有在先获取的所述指定文件对应的参数信息;
将所述参数信息链表中相邻的参数信息进行合并;
按照预置条件查找合并后的所述参数信息链表中是否存在空缺的参数信息。
进一步,按照预置条件查找合并后的所述参数信息链表中是否存在空缺的参数信息,包括:
按照预设的次数阈值重复查找合并后的所述参数信息链表中是否存在空缺的参数信息,当查找结果为存在空缺的参数信息且查找次数达到所述次数阈值时,判定所述已获取的所述指定文件对应的参数信息存在空缺。
进一步,所述方法还包括:
将所述合并后的所述参数信息链表中空缺的参数信息对应的数据确定为所述指定文件丢失的数据。
进一步,所述同步数据的参数信息包括偏移量和数据长度,且下一次同步数据的偏移量为本次同步数据的偏移量与数据长度的和。
本申请实施例还公开了一种数据检测装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510419821.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:时序系统多参数运行态势图形表示方法
- 下一篇:一种终端应用控制方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





