[发明专利]一种基于本福特定律的数据造假排查方法在审
| 申请号: | 201910209105.0 | 申请日: | 2019-03-19 |
| 公开(公告)号: | CN110321376A | 公开(公告)日: | 2019-10-11 |
| 发明(设计)人: | 李楠 | 申请(专利权)人: | 北京信息科技大学 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F16/215 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 环境数据 数据源 排查 仓库 不确定性分析 技术支持 检验结果 领域数据 企业单位 输出检验 统计指标 校验数据 构建 挖掘 检验 环节 分析 统计 | ||
本发明的实施例公开一种基于本福特定律的数据造假排查方法。所述方法包括:提供数据源,将所述数据源的环境数据导入并构建环境数据仓库,本福特定律检验所述环境数据仓库的环境数据并输出检验结果,对检验结果分析,能够明确数据造假嫌疑较大的地区或统计环节,识别出需要重点校验数据质量的地区、企业单位与统计指标,为提升相关领域数据挖掘分析结果的可靠性与不确定性分析提供技术支持。
技术领域
本发明涉及环境监测领域,尤其涉及一种基于本福特定律的数据造假排查方法。
背景技术
环保作为协同发展先行的两个领域之一,需要在产业绿色转移、升级、生态补偿等方面率先取得突破。环保领域的各类细化规划与政策措施都需要的详尽可靠的基础数据支持,然而,京津冀地区统计数据的真实性一直遭到多方质疑。统计数据尤其是环境统计数据在采集到汇聚全过程中的大量环节都为数据造假提供了可乘之机。数据采集阶段:上报数据的企业受到主管部门的“游说”,基础数据填报环节可能受到胁迫,即使是在线的自动监测装置也可通过技术手段进行数据干扰;数据汇聚阶段:“先审核后上报”的数据汇总处理方式,使得政绩可能操纵数据。2015年6月12日,环保部通报的环境监测数据造假案例中,首当其冲的即是河北邢台建滔焦化有限公司的高浓度焦化废水恶意偷排。本研究将循环经济研究中所涉及的环境统计(含监测数据)与相关的社会经济统计的总和统称为泛环境统计。
同时,由于传感器技术的进步、数据存储成本的下降,在环境信息公开的大趋势下,近年来公开的环境统计数据总量也呈大幅增长之势。例如环保部监测总站所公布的372城市1512个监测点实时的空气污染物数据(也是本研究先期所具备的自动抓取数据库之一),自2014年1月至2016年4月该数据库已经超过2000万条记录,监测污染物指标数目超过2亿。以上述的环保部通报的造假事件为例,所有披露的案例均是人工现场排查发现,如此庞大的监测点位与数据量全部借助人工审核必然有巨大的执行难度,所以必须辅以计算机与数据库技术。即便如此,使用传统的数据分析模式和工具已经不能够适应如此庞大的数据集,必须构建数据仓库、借助数据挖掘技术,高效进行数据造假嫌疑的初筛,才能使得对海量泛环境统计数据造假嫌疑的分析成为可能。
1881年,本福特定律首先由Simon Newcomb发现。Newcomb发现对数表包含以1为首位的页比其他页更脏、更破烂,认识到数字首位出现的频率可能并非如常规思维所认为的均等,以1为首位的数字约占31%,以9为首位的数字约占5%。Newcomb的发现并未广泛被人熟知。
Benford在1938年重新发现了Newcomb所发现的首位数分布规律现象,并进行了验证。他通过对大量的数据集进行统计分析后发现,这些数据集均符合Newcomb提出的首位数分布规律,即在自然产生的数据中,如果样本量足够大,首位数为1的数字出现的频率高达30.1%。1至9各首位数出现的频率如公式(1)所示。
Benford的验证研究使该规律广为人知,所以该规律被命名为本福特定律。本福特定律精确地数学表述为:在b进位制中,以数n为首的数出现的频率如公式(2)所示。
F(N)=logb(n+1)-logb(n) (2)
目前,没有发现国内外研究者在环境领域使用本福特定律进行探索应用。国外没有检索到针对泛环境统计数据此类研究的原因是根本不存在这类问题。国外的各类统计数据相对而言置信度较高,相关研究仅需分辨其统计口径和适用范围即可。
国内能够检索到公开发表的泛环境领域相关研究仅为余宇峰等针对水文数据进行数据质量挖掘分析,以太湖流域为例,分析水文水资源数据的质量问题。由于此类研究极度欠缺,京津冀区域大部分利用统计数据(二手数据)进行的环境系统分析相关的研究均缺乏鉴别源数据数据质量的能力,“假数真算”的现象普遍存在。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910209105.0/2.html,转载请声明来源钻瓜专利网。





