[发明专利]一种基于聚类的半监督识别方法在审
| 申请号: | 202010459153.8 | 申请日: | 2020-05-26 | 
| 公开(公告)号: | CN111695612A | 公开(公告)日: | 2020-09-22 | 
| 发明(设计)人: | 黄杰;许顺轶 | 申请(专利权)人: | 东南大学 | 
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 | 
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 | 
| 地址: | 210096 *** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 识别 方法 | ||
本发明公开了一种基于聚类的半监督识别方法。首先,初始化样本集,将样本集中的样本分为有标记样本和未标记样本,并根据有标记样本的类别标签初始化各类别中心;其次,计算未标记样本到各类别中心的余弦距离,确定距离最近的类别中心,进入循环;再次,计算未标记样本的Z‑Score值,确定其类别归属;然后,判断是否达到迭代终止条件;最后,完成聚类,未标记样本均获得类别标记。本发明通过选取余弦距离作为距离衡量标准,引入Z‑Score值进行相似性度量的方式对约束种子k均值算法进行改进。与约束种子k均值算法相比,改进后的算法在物联网设备识别中具备更好的聚类效果和新类别发现能力。
技术领域
本发明涉及一种基于聚类的半监督识别方法,属于模式识别的聚类算法和半监督学习算法领域。
背景技术
所谓模式识别,就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记,模式识别包括:有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记;无监督学习使用的样本均无类别标记;半监督学习使用的样本的一部分有类别标记,而另一部分无类别标记。
聚类是典型的无监督学习,主要通过对无标记样本的训练获取数据包含的内在规律。常见聚类算法有DBSCAN、AGNES和k均值算法。DBSCAN算法可以找到任意尺寸和任意形状的类别,但是DBSCAN算法的缺点也很明显:当数据集中的样本密度变化时,算法效果并不好;算法中邻域的范围以及邻域内邻近点的数量阈值很难预先给出。AGNES算法对距离衡量指标的选取不敏感,但该算法效率低、有较大计算开销。k均值算法计算速度快,但有四大缺点:首先,在聚类前必须给定类别数k,而k值的选取比较困难;其次,k均值算法中的初始聚类中心是随机选取的,容易陷入局部最优解;再次,k均值算法默认使用欧式距离,有些数据集的数据特点造成选用欧式距离作为距离衡量指标时聚类效果并不好;最后,k均值算法很难发现任意形状的类别簇,只能实现“类圆形”的聚类。
实际中所使用的样本集往往既包含有标记样本又包含无标记样本,因而可以通过半监督聚类来利用有标记信息以获得更好的聚类效果,约束种子k均值是一种典型的半监督聚类方法。约束种子k均值算法利用有标记样本确定初始聚类中心,克服了k均值算法存在的部分缺点,包括:需预先指定类别数,随机选择初始聚类中心造成的易陷入局部最优解问题。但该算法并不能满足物联网设备识别的需求,存在聚类效果不佳和新类别发现困难的问题。因此,如何使得约束种子k均值算法能更好地适用于物联网设备识别、提升聚类效果和新类别发现能力,成为亟待解决的问题。
发明内容
针对约束种子k均值算法在识别设备类别过程中存在的聚类效果不佳和新类别发现困难的问题,本发明设计了一种基于聚类的半监督识别方法,能够提升聚类效果和新类别的发现能力。
为了达到上述目的,本发明提供如下技术方案:
一种基于聚类的半监督识别方法,包括如下步骤:
(1)初始化样本集,将样本集中的样本分为有标记样本和未标记样本,并根据有标记样本的类别标签初始化各类别中心;
(2)计算未标记样本到各类别中心的余弦距离,确定到未标记样本距离最近的类别中心,进入循环;
(3)计算未标记样本的Z-Score值,判断Z-Score值与阈值关系,确定未标记样本的类别归属;
(4)判断是否达到迭代终止条件,如果未达到,返回步骤(2),如果已经达到,进入步骤(5);
(5)完成聚类,未标记样本均获得类别标记。
进一步地,所述步骤(1)具体包括以下步骤:
(11)将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010459153.8/2.html,转载请声明来源钻瓜专利网。





