[发明专利]大动态范围大离散单区域多点精准确定异常值的方法有效
申请号: | 201911307015.1 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111121946B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 孙小菡;徐宛丽;吴宝锋;刘华伟 | 申请(专利权)人: | 东南大学 |
主分类号: | G01H9/00 | 分类号: | G01H9/00;H04B10/079 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 施昊 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 范围 离散 区域 多点 精准 确定 异常 方法 | ||
本发明公开了大动态范围大离散单区域多点精准确定异常值的方法。采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;通过标准差均值前向平移操作处理单区域样本中各点的标准差;计算单区域样本内所有点的置信率;将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。本发明克服了数据量大和异常不明显的难题,能够快速精准地确定异常数值。
技术领域
本发明属于计算机数据处理技术领域,特别涉及了一种大动态范围大离散数据的异常值确定方法。
背景技术
在计算机建模时,清理数据样本非常重要,可以确保观察结果充分代表问题。有时,数据集可能包含超出预期范围之外的极端值,这些值通常被称为异常值。通过理解甚至去除这些异常值,能够改进建模和模型技能。
目前提出的确定数据异常值的方法包括基于距离的方法、基于偏差的方法和基于密度的方法等。这些方法虽然可以找出异常值,但是方法较为繁琐,需要大量的机器学习,尤其是当动态范围较大,异常数据不明显时,通过现有的方法很难查找出来。
例如,在分布式光纤振动传感定位技术中,误报率是突出的问题,当系统发生误报时,系统测出的振动点与实际振动点相差几百米。尤其是当传输距离较远时,因为背向散射信号较弱,信号和背景噪声无法区分开来,造成振动定位的误报,因此亟需一种精准定位振动点的方法。
发明内容
为了解决上述背景技术提出的技术问题,本发明提出了大动态范围大离散单区域多点精准确定异常值的方法,克服了数据量大和异常不明显的难题,能够快速精准地确定异常数值。
为了实现上述技术目的,本发明的技术方案为:
大动态范围大离散单区域多点精准确定异常值的方法,包括以下步骤:
(1)采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;
(2)通过标准差均值前向平移操作处理单区域样本中各点的标准差;
(3)计算单区域样本内所有点的置信率;
(4)将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。
进一步地,在步骤(1)中,一次采集N个单区域样本,计算各点的平均值标准差σi和离散差dij:
其中,xij表示第j个样本中第i个点值,i=1,2,…,M,M为采样点数目,j=1,2,…,N。
进一步地,在步骤(1)中,对标准差和离散差进行阈值处理的方法如下:
设定阈值t1和t2;
当第i个采样点的标准差σi满足σi≤t1时,将σi设置为t1;
当第j个样本的第i个采样点的离散差dij满足dij≤t2时,将dij设置为0。
进一步地,步骤(2)的过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911307015.1/2.html,转载请声明来源钻瓜专利网。