[发明专利]一种生理数据离群检测方法及装置在审

专利信息
申请号: 201310687125.1 申请日: 2013-12-13
公开(公告)号: CN104714964A 公开(公告)日: 2015-06-17
发明(设计)人: 寿文卉 申请(专利权)人: 中国移动通信集团公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/22
代理公司: 北京鑫媛睿博知识产权代理有限公司 11297 代理人: 龚家骅
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生理 数据 离群 检测 方法 装置
【说明书】:

技术领域

发明涉及移动健康管理系统中数据处理技术领域,尤其涉及一种生理数据离群检测方法及装置。

背景技术

离群检测是数据挖掘的一种方法,着重于挖掘数据中相对孤立的异常数据,可以应用于各种领域中。常用的离群检测方法主要有四类:基于统计分布的方法、基于距离的方法、基于密度的方法和基于偏差的方法。其中,基于统计分布的方法通常只针对单个属性,不能挖掘多维数据中的离群点,并且需要事先了解数据的分布特征;基于距离的方法能够解决多维空间中的离群检测问题,不需要已知数据的分布情况,并且能够避免大量的计算;基于密度的方法以距离和密度两个概念为基础,同时考虑样本之间的距离和给定邻域内样本的个数,通过定量评估数据的离群程度来检测局部离群点和全局离群点;基于偏差的离群检测方法不再使用统计方法和距离测度,它关心的是样本点是否偏离于数据集的特征,但仍停留在理论研究上。下面就上述几种离群检测方法做一些具体的介绍:

现有技术中记载了一种数据中异常点的检测方法,该方法应用于工业生产技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:计算最大/次大数据值和最小/次小数据值之间的差值统计量,并将其与格鲁布斯(或肖维特)检测临界值相比较,最终确定最大数据值、最小数据值是否是异常点;

现有技术中记载了一种检测数据中异常点的去除方法,该方法应用于半导体制造技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:设定置信度及预计异常点数目,采用Tietjen&Moore方法计算第一平方和、第二平方和和偏离值,并将偏离值与临界值相比较,最终确定实际异常点数目和异常点。

现有技术中记载了一种识别离群交通数据的方法,该方法应用于智能交通系统中智能信息处理技术领域中,是一种基于密度的离群检测方法,能够实现多维空间中全局离群点和局部离群点的检测。该方法包括以下步骤:计算数据的平均局部离群因子,使用两个准则之一判断离群数据(平均局部离群因子最高的m个数据或者平均局部离群因子大于给定阈值的数据),最终删除或修正离群数据,或者分析离群数据所包含的隐藏信息。

然而,对于上述几种离群检测的方法,在实现时,会相应的带来不同的问题:第一种,仅适用于服从正态分布的单个属性,只能够判断最大数据值和最小数据值是否是异常点,不能解决数据分布未知、具有多个维度、异常点数目可能大于2的人体生理数据的离群检测问题;

第二种,仅适用于服从正态分布的单个属性,不能解决数据分布未知、具有多个维度的人体生理数据的离群检测问题;

第三种,仅适用于相互独立的多个维度,不能解决不同维度量纲存在不一致、不同维度之间存在相关性的人体生理数据的离群检测问题。

发明内容

本发明实施例的目的在于提供一种生理数据离群检测方法及装置,通过将稳健马氏距离与k近邻离群检测方法的结合,实现了对于生理数据的离群检测,提高了离群检测的效率。

为了达到上述目的,本发明实施例提供了一种生理数据离群检测方法,包括:

确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;

选取数据集合中的第q+1个样本,执行步骤A;

步骤A,确定当前样本的距离序列中是否包含有k个距离值;当包含时,执行步骤B,当不包含时,执行步骤E;

步骤B,选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;

步骤C,当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,重复执行步骤A;

步骤D,当该第k个距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;执行步骤B;

当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,重复执行步骤A;

步骤E,利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后执行步骤B;

重复上述步骤,直至遍历完所有样本,得到遍历后的top-q序列,确定所述遍历后的top-q序列中的q个样本为离群点。

优选地,所述确定top-q序列,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司;,未经中国移动通信集团公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310687125.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top