[发明专利]实时数据仓库的数据校验方法、系统及计算机可读介质在审
申请号: | 202110483615.4 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113076310A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 杨涛;王宇 | 申请(专利权)人: | 浙江太美医疗科技股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/21 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杜娟;骆希聪 |
地址: | 314000 浙江省嘉兴市经济技*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 数据仓库 数据 校验 方法 系统 计算机 可读 介质 | ||
本发明涉及一种实时数据仓库的数据校验方法、系统及计算机可读介质。所述实时数据仓库与业务数据库进行实时数据同步,该数据校验方法包括:记录一校验时刻;从所述业务数据库中获取所述校验时刻之前的业务数据;等待一预设时长之后,从所述实时数据仓库中获取同步数据,所述同步数据对应于所述业务数据;对比所述业务数据和所述同步数据,获得所述业务数据和所述同步数据之间的差异数据集合;以及根据所述差异数据集合获得所述实时数据仓库的校验结果。本发明的数据校验方法可以对校验时刻之前的业务数据和同步数据进行全量校对,并且去除系统延迟造成的问题,能够准确地发现实时数据仓库中的错误,以便于及时发现错误并予以修复。
技术领域
本发明主要涉及临床试验研究领域,具体地涉及一种实时数据仓库的数据校验方法、系统及计算机可读介质。
背景技术
现代临床试验研究越来越多的使用电子数据采集系统和大型的软件平台来实施临床数据的采集、分析和管理,大大提高了临床试验研究的效率,为临床研究人员带来了极大的便利。一些临床试验系统采用业务软件平台采集临床试验数据,将众多业务数据存储在业务数据库中,同时,将业务数据实时地同步到数据仓库中,研究人员可以在数据仓库中进行大数据分析。然而,在该数据同步过程中,由于采集链路长,数据规模大,其中任何环节发生问题都会导致数据异常,从而影响数据分析结果的准确性。对于临床试验研究来说,数据的准确性尤为重要,因此需要确保实时数据仓库中的数据与业务数据库中的数据具有高度一致性。
目前对临床实时数据仓库中的数据采用人工或自动测试的方法进行检验,然而人工测试代价高,效果差,几乎无法在海量数据中发现少数异常;自动测试也仅仅是从海量数据中尽量抽取出具有代表性的数据,再通过执行程序语言的方式进行比对。这些方法都不能做到对海量数据的全量校对,无法百分之百的确保临床实时数据仓库中的数据的准确性。
发明内容
本发明所要解决的技术问题是提供一种准确全量校对实时数据仓库的数据校验方法、系统及计算机可读介质。
本发明为解决上述技术问题而采用的技术方案是一种实时数据仓库的数据校验方法,所述实时数据仓库与业务数据库进行实时数据同步,其特征在于,所述方法包括:记录一校验时刻;从所述业务数据库中获取所述校验时刻之前的业务数据;等待一预设时长之后,从所述实时数据仓库中获取同步数据,所述同步数据对应于所述业务数据;对比所述业务数据和所述同步数据,获得所述业务数据和所述同步数据之间的差异数据集合;以及根据所述差异数据集合获得所述实时数据仓库的校验结果。
在本发明的一实施例中,所述记录一校验时刻的步骤包括:采用大数据计算框架启动一批处理作业,所述批处理作业适于从所述业务数据库中获取所述业务数据,以及从所述实时数据仓库中获取所述同步数据;以及记录所述批处理作业的启动时间,将所述启动时间作为所述校验时刻。
在本发明的一实施例中,所述大数据计算框架包括Apache Spark框架。
在本发明的一实施例中,所述对比所述业务数据和所述同步数据的步骤包括:按照唯一主键将所述业务数据和所述同步数据对应起来,形成合并数据表,其中,具有相同唯一主键的所述业务数据和所述同步数据位于所述合并数据表中的同一行;以及在所述合并数据表中逐行对比所述业务数据和所述同步数据,获得所述业务数据和所述同步数据不一致的差异数据。
在本发明的一实施例中,所述差异数据集合包括以下三种错误:第一错误,所述业务数据包括所述唯一主键对应的第一数据,所述同步数据包括所述唯一主键对应的第二数据,所述第一数据和所述第二数据对应于相同的字段,所述第一数据不同于所述第二数据;第二错误,所述业务数据中包括所述第一数据,所述同步数据中不包括所述第二数据;以及第三错误,所述业务数据中不包括所述第一数据,所述同步数据中包括所述第二数据。
在本发明的一实施例中,所述实时数据仓库包括删除标记字段,所述删除标记字段用于标记所述同步数据是否经过软删除操作,所述软删除操作不实际删除所述同步数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江太美医疗科技股份有限公司,未经浙江太美医疗科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110483615.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置