[发明专利]一种基于本福特定律的数据造假排查方法在审
| 申请号: | 201910209105.0 | 申请日: | 2019-03-19 |
| 公开(公告)号: | CN110321376A | 公开(公告)日: | 2019-10-11 |
| 发明(设计)人: | 李楠 | 申请(专利权)人: | 北京信息科技大学 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F16/215 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 环境数据 数据源 排查 仓库 不确定性分析 技术支持 检验结果 领域数据 企业单位 输出检验 统计指标 校验数据 构建 挖掘 检验 环节 分析 统计 | ||
1.一种基于本福特定律的数据造假排查方法,其特征在于,所述方法包括:
步骤S1:提供数据源;
步骤S2:将所述数据源的环境数据导入并构建环境数据仓库;
步骤S3:本福特定律检验所述环境数据仓库的环境数据并输出检验结果;
步骤S4:对检验结果分析。
2.根据权利要求1所述的方法,其特征在于,
步骤S1中所述数据源包括:《中国统计年鉴》、《中国农村统计年鉴》、《中国农业年鉴》、《中国矿业年鉴》、《中国能源统计年鉴》、《UN COMTRADE》、《中国口岸年鉴》、《中国环境统计年鉴》、《中国环境统计年报》、《中国城市建设统计年鉴》、《中国再生资源综合利用年鉴》、《监测总站空气质量自动抓取数据库》和《监测总站国控点水质自动抓取数据库》。
3.根据前述任一权利要求所述的方法,其特征在于,所述数据源的环境数据包括SQLServer、Excel、Oracle及Flat File等形式。
4.根据前述任一权利要求所述的方法,其特征在于,步骤S2具体如下:通过SSIS(Microsoft SQL Server Integration Services)模块进行环境数据的ETL(Extract-Transform-Load)。
5.根据权利要求4所述的方法,其特征在于,所述进行环境数据的ETL包括提取、转换和加载过程。
6.根据权利要求5所述的方法,其特征在于,所述提取是将多种不同格式的环境数据从所述数据源中进行提取,在环境数据仓库中形成一系列未经加工的环境原始数据中转表,即保留环境数据来源的数据源中数据的原貌,不做任何的数据转换或增加派生列,同时,剔除掉不需要的字段和记录,不需要的信息不占用本地的服务资源。
7.根据权利要求6所述的方法,其特征在于,所述转换是将环境数据在提取源数据流时将转换为Integration Services数据类型。
8.根据权利要求7所述的方法,其特征在于,所述加载是经过提取和转换的有效环境数据将以中转表的形式存储加载到指定的目标环境数据仓库中,另外各个步骤中的错误输出数据也将存储起来,用于错误分析,某些错误数据也可通过处理从噪音成为信号。
9.根据前述任一权利要求所述的方法,其特征在于,步骤S3中所述本福特定律检验包括使用卡方拟合优度检验法、距离检验方法和/或相关系数测量法。
10.根据前述任一权利要求所述的方法,其特征在于,步骤S4中对检验结果分析包括结合各类环境数据的实际物理意义进行进一步的分析论证,以对本福特定律检验结果进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910209105.0/1.html,转载请声明来源钻瓜专利网。





