[发明专利]一种批量数据采集方法、装置、可读存储介质及计算设备在审
申请号: | 201910860041.0 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110633280A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 张斌;蔡云山;陈志辉;杨秋亮;龚平 | 申请(专利权)人: | 北京亚信数据有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/28;G16H50/70 |
代理公司: | 11551 北京鼎承知识产权代理有限公司 | 代理人: | 田恩涛;柯宏达 |
地址: | 100193 北京市海淀区西北旺东路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 采集策略 采集 集群 可读存储介质 采集方式 计算设备 批量数据 数据源 录入 写入 代理 | ||
本发明实施例提供了一种批量数据采集方法、装置、可读存储介质及计算设备,用以自动批量对多个数据源进行采集和处理,解决人工采集方式的效率低下的问题,方法包括:获取多个第一数据库的数据表的信息;确定用于录入多个第一数据库的数据表的第二数据库的数据表;确定代理agent集群采集第一数据库的数据表的采集策略;指示agent集群按照所述采集策略,将多个第一数据库的数据表写入所述第二数据库的数据表。
技术领域
本公开涉及计算机技术领域,尤其涉及一种批量数据采集方法、装置、可读存储介质及计算设备。
背景技术
随着医疗数据业务种类的不断增多,数据的不断增大,对大量的医疗相关数据进行数据挖掘与数据分析具有一定的时代意义。
医疗数据采集是进行数据挖掘与分析的前提,在对接各医疗机构采集医疗数据时,往往需要建立大量的采集任务,目前主要靠人工对采集任务分别单独地进行配置,不仅人工成本高,而且效率低。
发明内容
为此,本公开提供一种批量数据采集方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本公开实施例的一个方面,提供了一种批量数据采集方法,包括:
获取多个第一数据库的数据表的信息;
确定用于录入多个第一数据库的数据表的第二数据库的数据表;
确定代理agent集群采集第一数据库的数据表的采集策略;
指示agent集群按照采集策略,将多个第一数据库的数据表写入第二数据库的数据表。
可选地,指示agent集群按照采集策略,将多个第一数据库的数据表写入第二数据库的数据表之前,还包括:
根据多个第一数据库的数据表的信息,以及第二数据库的数据表的信息,确定多个第一数据库的数据表与第二数据库的数据表的映射规则;
指示agent集群按照采集策略,将多个第一数据库的数据表写入第二数据库的数据表,包括:
指示agent集群按照采集策略,采集多个第一数据库的数据表;
根据多个第一数据库的数据表与映射规则,将多个第一数据库的数据表写入第二数据库的数据表。
可选地,方法还包括:
根据多个第一数据库的数据表,校验第二数据库的数据表;
当确定第二数据库的数据表存在错误时,修复第二数据库的数据表;
根据第二数据库的数据表存在的错误及修复方式,更新映射规则。
可选地,采集策略包括:
各个采集任务的触发时间、执行周期、有效期;
触发时间,用于指示各个采集任务在每一执行周期内的触发时间点;
执行周期,用于指示agent集群执行采集任务的周期;
有效期,用于指示根据执行周期执行采集任务的时间段。
可选地,采集策略还包括:
各个采集任务的重做间隔、最长运行时长、失败重做次数以及是否覆盖执行的选择;
重做间隔,用于指示agent集群执行任一采集任务失败时,重新启动采集任务的时间间隔;
最长运行时长,用于指示任一采集任务的最长运行时长,当任一采集任务的执行时长大于最长运行时长时,确定任一采集任务失败并终止任一采集任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚信数据有限公司,未经北京亚信数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910860041.0/2.html,转载请声明来源钻瓜专利网。