[发明专利]一种大数据遗漏率分析方法在审
| 申请号: | 201810444690.8 | 申请日: | 2018-05-10 |
| 公开(公告)号: | CN108681579A | 公开(公告)日: | 2018-10-19 |
| 发明(设计)人: | 高强 | 申请(专利权)人: | 北京鼎泰智源科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中企鸿阳知识产权代理事务所(普通合伙) 11487 | 代理人: | 郭鸿雁 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 采集 采集源 遗漏 大数据 数据源 网站 优先级策略 采集目标 单位数据 定时检测 更新数据 目标领域 任务方式 任务设置 设置方式 数据采集 数据采用 预设参数 增量采集 分析 多线程 源数据 逐页 补充 统计 | ||
本发明提出了一种大数据遗漏率分析方法,包括:步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;步骤S3,对采集到的数据进行分析,统计遗漏率P。本发明,可以实现目标领域单位数据源数据采集无遗漏。
技术领域
本发明涉及大数据分析技术领域,特别涉及一种大数据遗漏率分析方法。
背景技术
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的分析、价值挖掘基于对目标领域数据全面的储备。而如何对数据源的数据进行全部采集,对新增数据补采,对于更新数据的跟踪,是大数据行业都面临的难题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种大数据遗漏率分析方法。
为了实现上述目的,本发明的实施例提供一种大数据遗漏率分析方法,包括如下步骤:
步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;
步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;
步骤S3,对采集到的数据进行分析,统计遗漏率P,包括:
公布型遗漏率分值p1:(1-采集数据总量/公布数据总量)*100%,公布型遗漏率权值w1;
查询型遗漏率分值p2:(1-抽查已采集数/抽查样本数据总量)*100%,查询型遗漏率权值w2;
同行同数据对比分值p3:采集数据量/同行数据总量*100%,同行同数据对比权值w3;
P=p1*w1+p2*w2+p3*w3。
进一步,在所述步骤S1中,所述优先级策略的采集顺序由高到低依次为:特殊队列、标准队列、蜗牛队列,
其中,标准队列是处于日常采集活动的队列;蜗牛队列是数据需求不紧急的采集队列;特殊队列是需要紧急采集,数据源网站不稳定的采集队列。
进一步,在所述步骤S1中,所述预设参数设置方式,包括:
输入目标采集源的URL地址、全采集模式和采集优先级测量;设置对目标采集源的数据源完整翻页方式、翻页起始页,翻页结束页,页面类型;设置采集模式和调度方式。
进一步,设置翻页方式:get、post、delete、put、options;
设置页面类型:列表、详情、json;
设置页面编码:utf-8、gbk、gb2312。
进一步,在所述步骤S1,对于目标采集源中暂时不能访问的数据源网站,开启采取时时监控任务监控网站状态,当监控器访问正常或访问量较小时多,执行线程采集。
进一步,对已经采集过的数据源网站,以预设周期进行定期重采补漏方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鼎泰智源科技有限公司,未经北京鼎泰智源科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810444690.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的库结构数据索引方法
- 下一篇:一种基于链接预测的服务组合推荐方法





