[发明专利]一种基于本福特定律的数据造假排查方法在审

专利信息
申请号: 201910209105.0 申请日: 2019-03-19
公开(公告)号: CN110321376A 公开(公告)日: 2019-10-11
发明(设计)人: 李楠 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/25 分类号: G06F16/25;G06F16/28;G06F16/215
代理公司: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 环境数据 数据源 排查 仓库 不确定性分析 技术支持 检验结果 领域数据 企业单位 输出检验 统计指标 校验数据 构建 挖掘 检验 环节 分析 统计
【权利要求书】:

1.一种基于本福特定律的数据造假排查方法,其特征在于,所述方法包括:

步骤S1:提供数据源;

步骤S2:将所述数据源的环境数据导入并构建环境数据仓库;

步骤S3:本福特定律检验所述环境数据仓库的环境数据并输出检验结果;

步骤S4:对检验结果分析。

2.根据权利要求1所述的方法,其特征在于,

步骤S1中所述数据源包括:《中国统计年鉴》、《中国农村统计年鉴》、《中国农业年鉴》、《中国矿业年鉴》、《中国能源统计年鉴》、《UN COMTRADE》、《中国口岸年鉴》、《中国环境统计年鉴》、《中国环境统计年报》、《中国城市建设统计年鉴》、《中国再生资源综合利用年鉴》、《监测总站空气质量自动抓取数据库》和《监测总站国控点水质自动抓取数据库》。

3.根据前述任一权利要求所述的方法,其特征在于,所述数据源的环境数据包括SQLServer、Excel、Oracle及Flat File等形式。

4.根据前述任一权利要求所述的方法,其特征在于,步骤S2具体如下:通过SSIS(Microsoft SQL Server Integration Services)模块进行环境数据的ETL(Extract-Transform-Load)。

5.根据权利要求4所述的方法,其特征在于,所述进行环境数据的ETL包括提取、转换和加载过程。

6.根据权利要求5所述的方法,其特征在于,所述提取是将多种不同格式的环境数据从所述数据源中进行提取,在环境数据仓库中形成一系列未经加工的环境原始数据中转表,即保留环境数据来源的数据源中数据的原貌,不做任何的数据转换或增加派生列,同时,剔除掉不需要的字段和记录,不需要的信息不占用本地的服务资源。

7.根据权利要求6所述的方法,其特征在于,所述转换是将环境数据在提取源数据流时将转换为Integration Services数据类型。

8.根据权利要求7所述的方法,其特征在于,所述加载是经过提取和转换的有效环境数据将以中转表的形式存储加载到指定的目标环境数据仓库中,另外各个步骤中的错误输出数据也将存储起来,用于错误分析,某些错误数据也可通过处理从噪音成为信号。

9.根据前述任一权利要求所述的方法,其特征在于,步骤S3中所述本福特定律检验包括使用卡方拟合优度检验法、距离检验方法和/或相关系数测量法。

10.根据前述任一权利要求所述的方法,其特征在于,步骤S4中对检验结果分析包括结合各类环境数据的实际物理意义进行进一步的分析论证,以对本福特定律检验结果进行修正。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910209105.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top