[发明专利]空气质量检测数据中离群值的获取方法及装置在审
| 申请号: | 201710913032.4 | 申请日: | 2017-09-28 |
| 公开(公告)号: | CN107729294A | 公开(公告)日: | 2018-02-23 |
| 发明(设计)人: | 陈文亮;张顺平;梁晓红 | 申请(专利权)人: | 天津同阳科技发展有限公司 |
| 主分类号: | G06F17/18 | 分类号: | G06F17/18;G01N33/00 |
| 代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 任岩 |
| 地址: | 300384 天津市滨海新区*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 空气质量 检测 数据 离群 获取 方法 装置 | ||
技术领域
本发明属于控制质量检测领域,具体涉及一种空气质量检测数据中离群值的获取方法及装置。
背景技术
在统计学中,离群值是指粗差即粗大误差或疏失误差的统计数据。粗差是明显查处规定条件下预期的误差。
统计数据中的疏忽(如读错,记错,说错,仪器又故障,操作不当)和巨大误差(残差的绝对值特别大)都是粗差。对于离群值的处理,不能仅凭一个特征,一项要求或者说凭经验就对其进行盲目取舍。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法找到观测对象进行核实,则只能对其进行修改或者直接舍弃。
在排除上述因素后,对于离群值,我们就要进行统计检验,应充分依据统计知识和离群值判断准则来确定其是否为异常值。
因此,对离群值的判断和处理是统计处理的一个重要环节。在离群值的判断和处理上,一些教材专著中的判据忽视了判断前提与处理目的。特别是对一组值相近的数据进行处理时,会出现几乎多半数据被判定为离群值。导致判断结果不准确,失去了参考价值。
发明内容
(一)要解决的技术问题
针对现有技术的不足,本发明的目的在于提供一种空气质量数据中离群值的获取方法及装置。
(二)技术方案
本发明的目的是通过下述技术方案实现的。
作为本发明的一个方面,提供一种空气质量数据中离群值的获取方法,包括如下步骤:
S1、获取一组需要求离群值的数据集合A,并,设定本组数据的离群值偏离倍数times1;
S2、按照从小到大的顺序对数据集合A进行排序,根据数据集合A的第二十五百分位数Q1,第七十五百分位数Q2,得到四分位数间距D1=Q2-Q1;
S3、根据数据集合A的第x百分位数与四分位数间距的比值获得times2,其中x为离群值所占百分数,90<x<100;
S4、判断times1与times2的大小,确定离群值偏离倍数times,如果times1>times2,则times>=times1;如果times<times2,则times=times2;
S5、确定四分位数间距D1与times的积bound即为离群值的分界值。
优选地,所述步骤S2中百分位数为:将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
优选地,所述步骤S2中四分位数间距为:由P25、P50、P75将一组变量值等分为四部分,P25称下四分位数,P75称上四分位数,将P75与P25之差定义为四分位数间距,是上四分位数与下四分位数之差。
优选地,所述离群值即为集合A中所有大于bound的值,获取集合A中所有大与bound值得的集合B。
作为本发明的另一方面,提供一种空气质量数据中离群值的获取装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,在执行指令时参照前文所述方法进行。
(三)有益效果
本发明根据具体情况,采取可配置参数或者第x百分位数与四分位数间距的比值的来作为空气质量数据中离群值的偏离倍数,更加灵活,有效的计算出离群值集合,达到预期效果。在合适的场所使用该发明,是一个比较好的选择。
附图说明
图1为本发明实施例空气质量数据中离群值的获取方法中统计离群值的流程图;
图2为本发明实施例空气质量数据中离群值的获取方法中计算获取百分位数流程图。
具体实施方式
为使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合具体实施方式,并参照附图,对本发明作进一步的详细说明。
根据本发明的基本构思,提供一种空气质量数据中离群值的获取方法,通过可配置参数或者第x百分位数与四分位数间距的比值的来作为离群值的偏离倍数,能有效的计算出离群值集合。
在本发明的具体实施方式中,所述方法包括如下步骤:
S1、获取一组需要求离群值(空气质量检测的某个参数数据,该参数为现有技术已有的)的数据集合A,并且,设定本组数据的离群值偏离倍数times1;
S2、按照从小到大的顺序对数据集合A进行排序,根据数据集合A的第二十五百分位数Q1,第七十五百分位数Q2,得到四分位数间距D1=Q2-Q1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津同阳科技发展有限公司,未经天津同阳科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710913032.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





