[发明专利]离群值检测设备、离群值检测方法和车辆故障诊断系统有效
申请号: | 201280018268.7 | 申请日: | 2012-02-27 |
公开(公告)号: | CN103493075A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 沓名拓郎;佐藤守一 | 申请(专利权)人: | 株式会社丰田中央研究所 |
主分类号: | G06N7/00 | 分类号: | G06N7/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;安翔 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离群 检测 设备 方法 车辆 故障诊断 系统 | ||
技术领域
本发明涉及离群值检测设备等,该离群值检测设备等辅助或执行从包括多个数据的数据集中检测离群值,该多个数据的每一个具有一个或多个维度。
背景技术
离群值检测问题被认为是用于从给定的数据集中找出作为离群值的属于低数据密度区域的数据。用于解决离群值检测问题的技术的应用示例例如包括:用于去除在数据集中包含的噪声数据的处理(用于数据筛选的预处理);用于从信用交易的数据集中检测进行异常交易的客户的处理;用于从在生产线中的产品的数据集中检测缺陷的处理等。
作为用于解决离群值检测问题的技术,例如,已知马哈拉诺比斯距离、单类支持向量机(以下缩写为“OC-SVM”)和局部离群因子(以下,缩写为“LOF”)。
NPL1描述了马哈拉诺比斯距离。在NPL1中,计算整个给定的数据集的质心(平均值)和协方差矩阵,使用协方差矩阵来计算从每一个数据到归一化的质心的距离,并且,将具有大距离的数据看作离群值。
在马哈拉诺比斯距离中,假定数据集符合多变量正态分布。在不能使用多变量正态分布来描述数据集的情况下,即,在数据集是非线性的情况下,不能检测适当的离群值。
NPL2描述了OC-SVM。在NPL2中,通过非线性映射将接收的数据集映射到高阶特征空间F内,并且从其中每一个将映射的数据组与原点分离的超平面中选择相对于原点最远的超平面。在采用OC-SVM来解决离群值检测问题的情况下,以下述方式来确定超平面:允许特定百分比的数据被分组在原点附近,而不是在超平面附近,并且,将被分组在原点附近的数据看作离群值。
在OC-SVM中,通过求解可以容易找到其解的凸优化问题,可以获得超平面。而且,因为OC-SVM采用非线性映射,所以OC-SVM适合于非线性数据集。
NPL3描述了LOF。在NPL3中,从数据x至与数据x相邻的k个数据的距离的平均值被计算为k-最近距离。因此,通过将数据x的k-最近距离除以k个相邻数据的k-最近距离而获得的值被计算为数据x的LOF。从如上所述的处理清楚,随着在数据x的k-最近距离和k个相邻数据的k-最近距离的平均值之间的差(即,通过从数据x的k-最近距离减去k个相邻数据的k-最近距离的平均值而获得的值)增大时,LOF呈现更大的值。因此,具有大的LOF的数据被看作离群值。
LOF也适用于非线性数据集。
然而,上述的现有技术的三个示例具有下述的问题。
如上所述,马哈拉诺比斯距离具有问题:在非线性数据集的情况下,不能检测适当的离群值。
OC-SVM具有未解决的问题:难以选择适当的非线性映射。这导致问题:需要参数调整操作,其中,人通过反复试验来确定用于确定非线性映射的参数。
而且,在OC-SVM中,在要处理大量数据的情况下,需要长时间来解优化问题。设数据的数量是N,则在OC-SVM中的计算量的数量级是O(N3),除非不进行调整。
LOF具有未解决的问题:难以选择适当的k。这也导致问题:需要参数调整操作,就像在OC-SVM中那样。
而且,LOF需要较高的计算负载。设数据的数量是N,则在LOF中的计算量的数量级是O(N2),除非不进行调整。
引用列表
非专利文献
NPL1:Mahalanobis,P.C.,On the Generalized Distance in Statistics(关于统计中的广义距离),Proceedings of the National Institute of Science(美国国家科学院院刊),49-55,1936
NPL2:Scholkopf,B.等,Estimating the Support of a High-Dimensional Distribution(估计高维分布的支持),Neural Computation(神经计算),7,1443-1471,2001
NPL3:Breunig,M.M.等,LOF:Identifying Density-Based Local Outliers(LOF:基于识别密度的局部离群值),SIGMOD Conference(SIGMOD会议),93-104,2000
发明内容
技术问题
已经鉴于上述问题而设计了本发明,并且本发明的目的是提供一种离群值检测设备等,该离群值检测设备等辅助或执行在实用时间内的离群值的检测,而不对非线性数据集执行参数调整操作。
对于问题的解决方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社丰田中央研究所,未经株式会社丰田中央研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280018268.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像显示方法、图像显示程序以及图像显示装置
- 下一篇:读卡机