[发明专利]一种生理数据离群检测方法及装置在审
申请号: | 201310687125.1 | 申请日: | 2013-12-13 |
公开(公告)号: | CN104714964A | 公开(公告)日: | 2015-06-17 |
发明(设计)人: | 寿文卉 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/22 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生理 数据 离群 检测 方法 装置 | ||
技术领域
本发明涉及移动健康管理系统中数据处理技术领域,尤其涉及一种生理数据离群检测方法及装置。
背景技术
离群检测是数据挖掘的一种方法,着重于挖掘数据中相对孤立的异常数据,可以应用于各种领域中。常用的离群检测方法主要有四类:基于统计分布的方法、基于距离的方法、基于密度的方法和基于偏差的方法。其中,基于统计分布的方法通常只针对单个属性,不能挖掘多维数据中的离群点,并且需要事先了解数据的分布特征;基于距离的方法能够解决多维空间中的离群检测问题,不需要已知数据的分布情况,并且能够避免大量的计算;基于密度的方法以距离和密度两个概念为基础,同时考虑样本之间的距离和给定邻域内样本的个数,通过定量评估数据的离群程度来检测局部离群点和全局离群点;基于偏差的离群检测方法不再使用统计方法和距离测度,它关心的是样本点是否偏离于数据集的特征,但仍停留在理论研究上。下面就上述几种离群检测方法做一些具体的介绍:
现有技术中记载了一种数据中异常点的检测方法,该方法应用于工业生产技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:计算最大/次大数据值和最小/次小数据值之间的差值统计量,并将其与格鲁布斯(或肖维特)检测临界值相比较,最终确定最大数据值、最小数据值是否是异常点;
现有技术中记载了一种检测数据中异常点的去除方法,该方法应用于半导体制造技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:设定置信度及预计异常点数目,采用Tietjen&Moore方法计算第一平方和、第二平方和和偏离值,并将偏离值与临界值相比较,最终确定实际异常点数目和异常点。
现有技术中记载了一种识别离群交通数据的方法,该方法应用于智能交通系统中智能信息处理技术领域中,是一种基于密度的离群检测方法,能够实现多维空间中全局离群点和局部离群点的检测。该方法包括以下步骤:计算数据的平均局部离群因子,使用两个准则之一判断离群数据(平均局部离群因子最高的m个数据或者平均局部离群因子大于给定阈值的数据),最终删除或修正离群数据,或者分析离群数据所包含的隐藏信息。
然而,对于上述几种离群检测的方法,在实现时,会相应的带来不同的问题:第一种,仅适用于服从正态分布的单个属性,只能够判断最大数据值和最小数据值是否是异常点,不能解决数据分布未知、具有多个维度、异常点数目可能大于2的人体生理数据的离群检测问题;
第二种,仅适用于服从正态分布的单个属性,不能解决数据分布未知、具有多个维度的人体生理数据的离群检测问题;
第三种,仅适用于相互独立的多个维度,不能解决不同维度量纲存在不一致、不同维度之间存在相关性的人体生理数据的离群检测问题。
发明内容
本发明实施例的目的在于提供一种生理数据离群检测方法及装置,通过将稳健马氏距离与k近邻离群检测方法的结合,实现了对于生理数据的离群检测,提高了离群检测的效率。
为了达到上述目的,本发明实施例提供了一种生理数据离群检测方法,包括:
确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
选取数据集合中的第q+1个样本,执行步骤A;
步骤A,确定当前样本的距离序列中是否包含有k个距离值;当包含时,执行步骤B,当不包含时,执行步骤E;
步骤B,选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;
步骤C,当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,重复执行步骤A;
步骤D,当该第k个距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;执行步骤B;
当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,重复执行步骤A;
步骤E,利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后执行步骤B;
重复上述步骤,直至遍历完所有样本,得到遍历后的top-q序列,确定所述遍历后的top-q序列中的q个样本为离群点。
优选地,所述确定top-q序列,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司;,未经中国移动通信集团公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310687125.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对网站页面进行国际化的方法和装置
- 下一篇:一种动态定制报表的方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置