[发明专利]一种脏数据检测的方法和装置有效

专利信息
申请号: 202111123840.3 申请日: 2021-09-24
公开(公告)号: CN113837278B 公开(公告)日: 2022-06-28
发明(设计)人: 林文楷;连志阳;陈文艺;鄢小征;魏超;蓝坤宏 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F16/2458
代理公司: 厦门福贝知识产权代理事务所(普通合伙) 35235 代理人: 郭涵炜
地址: 361000 福建省厦门市思明*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 检测 方法 装置
【说明书】:

发明给出了一种脏数据检测的方法和装置,包括对原始数据的属性类型进行归一化处理后再进行属性特征分析,从而区分出其中的已明确类型的原始数据项和未明确类型的原始数据项,根据区分出来的结果对原始数据匹配合适的脏数据检测方案。此外,基于不同的分类方式分别对原始数据进行分类,并利用匹配到的脏数据检测方案进行检测后统计各分类的脏数据比例,根据得到的脏数据比例调整所使用的脏数据检测方案,重新统计各分类的脏数据比例,最终对同一数据项选取脏数据比例为最高时所使用的脏数据检测方案为优先执行的脏数据检测方案。本发明能够快速准确地识别海量原始数据中的脏数据,大大提高了大数据的分析利用价值,减少大数据系统的建设成本。

技术领域

本发明涉及计算机技术领域,尤其是一种脏数据检测的方法和装置。

背景技术

大数据系统每天都要接入类型繁多、因果关系弱的海量原始数据,包括网络日志、图片、地理位置等,原始数据的产生非常迅速且包含大量的脏数据,大数据系统对数据的处理速度有非常严格的要求,传统的脏数据检测规则只能通过人工方式,对已知类型的原始数据预设置对应的检测规则,然而原始数据由于存在关联性差和属性类型不明确等特点,很多原始数据解析入库时,没有匹配对应的检测规则,导致很多脏数据进入到大数据系统,严重影响大数据服务业务开展的质量。所以如何快速准确地完成原始数据的提纯,减少最终数据资产的脏数据比例,是大数据能否高效支撑业务办理的关键点。

一种脏数据检测的方法和装置就是为解决实战需求,利用智能识别算法,对已明确类型和未明确类型的原始数据项,打上不同维度的标签,根据所打的标签动态调整脏数据检测规则,防止脏数据进入大数据系统;利用检测方案调整算法,抽样分析每个原始数据项的脏数据比例,根据比例动态调整原始数据项的检测规则,减少无谓的检测环节,提升原始数据的入库效率,提升大数据的业务支撑能力。

由于进入大数据系统的原始数据存在关联性差和属性类型不明确等特点,目前市场上现有的脏数据检测规则都是通过人工方式,对已知类型的原始数据预设置对应的检测规则,这些技术存在以下不足:

1)脏数据检测的方式单一:只能通过单一的模板或正则表达式进行匹配,无法自动分析原始数据项属性对应的含义,并配置对应的检测规则。

2)脏数据检测的范围较小:只能针对已明确类型的原始数据项,预设置对应的检测规则,对于未明确类型的原始数据项,无法进行检测,导致很多脏数据进入大数据系统,影响大数据服务业务开展的质量;

针对以上问题,本发明提出一种脏数据检测的方法和装置,主要利用智能识别算法和检测方案调整算法,提高海量数据中脏数据的检测准确性和检测效率,减少脏数据进入大数据系统,提升大数据服务业务开展的质量。

发明内容

本发明提出了一种脏数据检测的方法和装置,以解决上文提到的现有技术的缺陷。

在一个方面,本发明提出了一种脏数据检测的方法,该方法包括以下步骤:

S1:对已进入大数据系统的历史原始数据进行属性归一化,再根据所述大数据系统对历史原始数据所应用的脏数据检测方案,构建出用于储存不同标准字段的数据项和与该数据项相匹配的脏数据检测方案的对应关系的特征检测规则库;

所述属性归一化包括:提取字段属性以及字段属性的具体信息,将所述字段属性中用于描述相同属性类型的字段进行归一化命名为同一个标准字段;

S2:当待测原始数据进入大数据系统时,对所述待测原始数据进行所述属性归一化,再将所述待测原始数据分为已明确类型的数据项和未明确类型的数据项;

S3:根据所述特征检测规则库选择与所述已明确类型的数据项相匹配的脏数据检测方案;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111123840.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top