[发明专利]改进k-means算法的噪声数据去除方法及实施系统有效
| 申请号: | 201610980597.X | 申请日: | 2016-11-08 |
| 公开(公告)号: | CN106650228B | 公开(公告)日: | 2019-02-26 |
| 发明(设计)人: | 黄静 | 申请(专利权)人: | 浙江理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
| 地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 改进 means 算法 噪声 数据 去除 方法 实施 系统 | ||
本发明公开了一种改进k‑means算法的噪声数据去除方法,该方法首先是采用最远优先策略选取k个聚类中心,然后根据此k个聚类中心对空气温度数据进行聚类,同时更新聚类中心,直到上下两次聚类中心不变停止聚类,接下来引入环境阈值,判断任意两个聚类中心之间的距离与环境阈值的大小,筛选出距离大于环境阈值的那部分簇中数据量最下的一个或几个簇删除,完成噪声数据的去除,本发明还公开了实施该改进k‑means算法的噪声数据去除方法的系统,本发明能够实现更快速、更准确地识别噪声数据并将其去除。
技术领域
本发明涉及一种噪声去除领域,尤其是涉及一种改进k-means算法的噪声数据去除方法及实施系统。
背景技术
噪声数据可能是数据集中的错误数据,可能是测量变量时产生的随机误差或偏差,也可能是不相关的数据或者无意义的数据。噪声数据的出现通常是由收集数据的仪器出错、数据传输中的错误、技术上的限制或者数据输入错误等原因造成的。比如在传感器网络采集的过程中由于传感器故障或者人为原因会导致采集到的数据在某一段时间出现较大波动,而这种波动对后续的挖掘任务来说是无意义的,且使得数据不在规定的数据域内,从而会影响后面的挖掘效果和结果,因此需要被消除。常用的消除噪声数据的方法有:分箱法、回归法、聚类法。
分箱法指通过参考周围实例的值来平滑需要处理的数据值,分箱的主要目的是去噪,将连续数据离散化,增加粒度。现有的分箱方法有等深分箱法和等宽分箱法,“箱的深度”表示不同的箱里有相同个数的数据,“箱的宽度”表示每个箱值的取值区间。具体方法有按箱平均值平滑法(即把箱中的所有值平均,然后使用箱的平均值替代箱中所有数据)、按箱中值平滑法(即对箱中的值求中值,然后使用箱的中值替代箱中所有数据)以及按箱边界平滑法(即把箱中的最大和最小值被视为箱边界,箱中的每一个值用最近的箱边界值替换)。由于分箱方法考虑相邻的值,因此是一种局部平滑方法,该算法简单容易实现,但使用该方法时,原数据损失很大,不能有效保留原数据的特征。
回归法是指可以用一个函数如回归函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性或变量的“最佳”线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且数据拟合到一个多维曲面,该方法清除噪声数据精确有效,但推广能力不足,且由于需要拟合出最佳的曲线或曲面,故耗时也较大。
聚类法是通过发现数据中的族找出数据中的离群点,然后将它们删除,以此达到去除噪声数据的目的,数据集中落在簇集之外的空气温度数据即为噪声数据。
k-means算法是比较经典的基于距离的聚类算法,它把k作为参数输入,随机选取k个中心点,最终将n个对象划分为k个簇,在这k个簇中同一簇中的成员具有较高的相似度,不同簇中的成员具有较高的相异度。k-means聚类算法中的聚类中心是通过计算一个簇中所有数据对象属性的均值来确定的,因此,k-means算法通常用来处理数值型的属性。
k-means算法在很多实际应用中都是一种很有效的聚类方法。但是普通的k-means算法有一个很大的缺点,即它的聚类结果随着随机选择的初始聚类中心的变化会有很大的变化,因此不能保证总能得到比较好的聚类结果,且最终的聚类结果的精确度依赖于初始聚类中心的选择。因此,初始中心点的选择对最终的聚类结果有很大的影响,选择适当的初始中心点可以加快聚类算法的收敛速度,而且还会改善聚类结果的质量。
发明内容
本发明提供了一种改进k-means算法的噪声数据去除方法及实施系统,该方法与该系统的结合在去除金针菇栽培过程空气温度数据中的噪声数据时,具有精确度高、稳定性好、可靠性高、实时性强等优点。
一种改进k-means算法的噪声数据去除方法,具体包括:
(1)采集空气温度数据,利用最远优先策略选出k个聚类中心作为当前聚类中心,k为自然数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610980597.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电视柜(61832)
- 下一篇:肾癌病例数字化信息管理系统





