[发明专利]一种基于ELM-HierarchicalClustering的离群点检测方法在审
申请号: | 201711032187.3 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107992878A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 王照锡;赵萌;陈胜勇;栾昊 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06T7/136;G06N3/06 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 董一宁 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elm hierarchicalclustering 离群 检测 方法 | ||
技术领域
本发明是一种基于ELM-Hierarchical Clustering的离群点检测方法,涉及到数据挖掘领域。
背景技术
当前飞速发展的现代科学技术与信息技术进程中,使得新的知识和信息量高速膨胀。再加上互联网和无线网络的普及,大大加快了信息传播和共享的速度及广度。在信息技术发展给我们带来巨大的好处的同时,如何迅速有效地从日益复杂的海量数据集中获取有用知识成为我们主要的问题和关注焦点。数据挖掘是一种常用的数据处理技术,它可以有效地帮助人们组织信息,它是知识发现的核心环节。
在实际应用中,数据往往来自不同的信息个体、部门、企业以及国家,在这些复杂异构的数据集中可能含有一些数据对象,它们与其它数据是显著相异的,表现为与数据的一般行为或模型不一致,这样的数据对象称为离群点。离群点挖掘就是从常规数据或模式中发现离群点的过程,它是数据挖掘的基本任务,也是数据挖掘中的重要研究方向。
数据集中离群点的产生原因往往是复杂多样的,其中一部分离群点可能是由于人为输入错误、测量时设备发生故障或存在噪音、过时旧数据或者数据缺失等错误所导致,这样的离群数据通常被认为是错误的,可以从数据集中提出或用其它方法进行变换;另一部分离群点可能是由数据本身的变化引起的,在一定程度上反映了整个数据的分布特征,如股票交易和外汇买卖等数据集,这类数据集中数据是随着时间不断变化的,在某些特殊的时间点,如开收盘或大盘动荡时,往往会出现大量或者异常的交易行为而形成离群点。还有一种产生离群点的原因可能是数据来源异常,如发生信用卡欺诈、网络入侵或发生灾难、疾病时的数据,相对于常规数据而言,这些数据来源于异常的行为或状态,并表现出与正常数据有明显区别。
不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,我们不希望样本中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。例如,两个相距很近的离群点将在谱分析中产生许多虚假的频率。因此,离群点往往被看作是一个“坏值”。
发明内容
本发明的目的在于提出了一种基于ELM-Hierarchical Clustering的离群点检测方法,该方法运用ELM非线性映射,将原始数据向量映射到ELM特征空间当中,使得数据变得更加线性可分,然后利用Hierarchical Clustering方法对样本进行聚类分析,进而筛选出离群点。
为了实现上述目的,本发明的方案是:
一种基于ELM-Hierarchical Clustering的离群点检测方法,运用ELM特征映射,将样本数据从原始样本空间映射到一个更高维的随机特征空间,然后利用 Hierarchical Clustering方法对样本进行聚类分析,进而筛选出离群点。具体步骤如下:
(1)对于N个需要进行聚类的原始数据{x1,x2,…,xN}(xi∈Rn),其中 xi=[xi1,xi2,…,xin]∈Rn,取定隐含层神经元个数为L;
(2)生成随机数输入权向量wi和偏置bi。wi和bi是隐层神经元的学习参数,其中wi=[wi1,wi2,…,win]T是第i个隐层神经元与输入神经元之间的权向量,bi是第i 个隐层神经元的偏差,wi×x表示wi和x在Rn的内积;
(3)选择激活函数g(x),如:sigmoid与threshold函数,G(wi,bi,x)是对应于输入x的第i个隐层神经元的输出,G(wi,bi,x)可以表示为:
当激活函数g(x)为RBF神经元时,G(wi,bi,x)可以表示为:
其中wi和bi是第i个RBF神经元的中心和宽度因子,R+是所有正实数的集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711032187.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:两阶段高阶容积信息滤波方法
- 下一篇:自动判断车辆保养用户潜在流失风险的方法