[发明专利]一种基于多视角的数据子空间聚类方法有效

申请号：	201310293779.6	申请日：	2013-07-12
公开（公告）号：	CN103400143B	公开（公告）日：	2017-03-01
发明（设计）人：	王亮;谭铁牛;赫然;尹奇跃	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	中科专利商标代理有限责任公司11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视角数据空间方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及模式识别技术领域，尤其是一种基于多视角的数据子空间聚类方法。

背景技术

现实中的数据往往具有多种视角。比如网页数据既包含图片信息，又包含文本信息；视频数据同时包含音频信息和图片信息。多视角学习的根本任务是利用不同视角之间的互补信息来提高学习的性能。多视角聚类是多视角学习的一个基本任务，传统的多视角聚类方法大多以谱聚类为基础，在度量不同视角表示下的样本点相似性时以欧氏距离为主。但是数据中的样本点其本征表示往往处于不同的子空间中，其高维表示下样本点的欧氏距离并不能有效的反映数据的结构信息。因此传统的多视角聚类并不能有效地进行多视角子空间的聚类。

发明内容

鉴于以往的方法不能有效的满足多视角的子空间聚类的需要，本发明提出了一种基于稀疏，低秩等约束的线性重构的方法来挖掘多视角数据内在结构的方法。该方法用不同的正则项来约束重构系数以便深入挖掘出子空间的结构，并且可以利用数据不同视角表示的互补信息进行多视角的子空间聚类。

为了解决现有技术存在的空缺，本发明的目的是提供一种基于多视角的数据子空间聚类方法，包括步骤：

步骤S1，提取多视角数据库中的多视角特征；

步骤S2，对于所述多视角数据库，选择特定的线性重构表示方法，并确定所述线性重构表示方法相对应的正则化约束方式；

步骤S3，确定所述多视角特征中每个视角特征的重构误差权重；

步骤S4，根据所选定的重构表示方法和所获得的不同视角特征的重构误差权重，学习得到对所述多视角数据库中所有样本进行重构的线性表示矩阵；所述线性表示矩阵用于表示数据库中样本之间的关系，其元素值表示其所在行对应的样本重构其所在列对应样本的重构系数；

步骤S5，将所述线性表示矩阵进行相应处理，得到度量所述多视角数据库中样本相似性的亲和矩阵；

步骤S6，利用谱聚类算法对所述亲和矩阵进行分割，得到多视角数据子空间。

本发明还公开了一种基于多视角的数据子空间聚类装置，其包括：

特征提取模块，其用于提取多视角数据库中的多视角特征；

线性重构选择模块，其用于对于所述多视角数据库，选择特定的线性重构表示方法，并确定所述线性重构表示方法相对应的正则化约束方式；

重构误差权重确定模块，其用于确定所述多视角特征中每个视角特征的重构误差权重；

线性表示矩阵获取模块，其用于根据所选定的重构表示方法和所获得的不同视角特征的重构误差权重，学习得到对所述多视角数据库中所有样本进行重构的线性表示矩阵；所述线性表示矩阵用于表示数据库中样本之间的关系，其元素值表示其所在行对应的样本重构其所在列对应样本的重构系数；

亲和矩阵获取模块，其用于将所述线性表示矩阵进行相应处理，得到度量所述多视角数据库中样本相似性的亲和矩阵；

多视角数据子空间聚类模块，其用于利用谱聚类算法对所述亲和矩阵进行分割，得到多视角数据子空间。

本发明提出的上述方案能够广泛的应用于聚类分析问题。在上述方案中，首先提取数据集(包含若干子空间)不同视角下的特征；然后利用稀疏，低秩等约束的数据线性重构的方法求得每一个样本点在不同视角下相同的重构系数。在确定重构系数时依据先验信息，对不同视角的重构误差给予不同的权重来衡量视角的重要性。最后通过所有数据点的重构系数构造度量数据相似性的亲和矩阵(affinity matrix)，并利用通用的聚类算法分割此亲和矩阵，完成子空间的聚类。该方法假设数据集中不同视角的数据共享相同的子空间结构，令样本集中数据点在不同视角下具有相同的重构系数，以此来利用多视角数据信息的互补性。同时采用数据重构的方法有助于挖掘出数据中子空间的结构信息。本发明方法将不同约束的数据线性重构方法纳入到统一的子空间聚类框架中，并提出了一种有效的算法进行目标函数的优化。根据本发明的方法，可以挖掘出同一子空间中样本点的相似关系，并且尽可能减小不同子空间中样本点的相似性。同时，可以利用数据集中样本点不同视角描述的信息的互补性来增强子空间聚类的效果。

附图说明

图1是本发明中基于多视角的数据子空间聚类方法流程图。

图2是本发明中在图像和文本两个视角下子空间聚类的具体模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明基于多视角的数据子空间聚类方法流程图，如图1所示，该方法包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310293779.6/2.html，转载请声明来源钻瓜专利网。