[发明专利]一种整合经典模型用于样本降维的流形学习系统在审
申请号: | 201710540291.7 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107578056A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 李冬冬;王喆;朱昱锦;高大启 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 整合 经典 模型 用于 样本 流形 学习 系统 | ||
技术领域
本发明涉及模式识别技术领域,尤其涉及预处理过程中对原始样本进行特征提取所采用的流形学习系统。
背景技术
模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,以便对研究对象完成自动识别的任务。近年来,模式识别技术已被广泛应用在人工智能、机器学习、计算机工程、机器人学、神经生物学、医学、侦探学以及考古学、地质勘探、宇航科学和武器技术等许多重要领域。可是,伴随应用领域的拓展,传统的模式识别技术面临新的挑战。其中一个突出的挑战来自数据预处理阶段,在该阶段,原始数据通过专门的特征处理方法将自身的特征处理到适合后续分类器处理的数量及数值。其中,特征提取是这类方法中应用最广,效果优异的方法。特征提取,是指通过映射的方法将原始特征数极大的样本变换到低维特征空间。映射后的特征称为二次特征,是原始特征的某种组合。因此,特征提取可以看作一种变换。使用特征提取对原始数据降维以获取更好的分类效果是模式识别领域一类常见处理方法,广泛应用于图像处理、视频追踪、数据分析、及医疗预测等领域。
十年来,流形学习的思想被广泛应用于特征提取的诸多方法。流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是指在局部与欧式空间同胚的空间,因此在局部具有欧式空间的性质,能用欧氏距离来进行样本的相似度度量计算。降维方法中引入流形思想,是因为在高维空间的原始样本近邻间,仍存在局部的欧式空间性质。通过对样本局部建立映射关系,再推广到全局,就能将原始高维空间的样本关系保留到低维空间,从而实现降维。近年,流形学习存在三个具有代表性的线性方法:其一是局部保留投影算法(Locality preserving projection),该方法改进自拉普拉斯特征映射方法,基本思想是在特征映射前后保持一个样本与其近邻的两两距离关系,使得全体样本在降维后保持与原始样本相近的拓扑关系;其二是线性判别分析方法(Linear discriminant analysis),该方法在特征映射时同时考虑最小化类内样本距离与最大化类间样本距离,以维持映射后样本的空间关系;其三是最大边界准则法(Maximum margin criterion),该方法的基本思想与线性判别分析法一致,不过将目标函数的优化准则设为最大化边界准则,而不是局部保留投影法与线性判别分析法采用的广义瑞利商准则。目前,对这三种经典方法出现了多种改进及拓展。现有工作表面,这三种经典流行学习法存在共通点。具体而言,线性判别分析法与最大边界准则法均可视为是局部保留投影法的特例。
目前,这三个经典方法在处理实际问题时仍然存在不足。最根本的的缺点是,包含三种原始方法及其推广方法在内的诸多流形学习方法,往往只适用于特殊需求的样本。没有一个方法能胜任所有的降维任务,更没有一个系统能自动根据不用任务提供对应的方法。
发明内容
针对现存降维方法推广性差,应用面窄,无法自动调整参数或准则的选取策略等明显缺陷,本发明提供了一种能够整合三大经典流行学习降维方法的系统,该系统首先将不同的已知流行学习方法整合在一个框架内,然后对选取的训练样本进行降维处理,再根据处理后的样本在后续分类器中的表现反过来选择出系统框架中最适合的模型作为正式学习过程中的预处理模型。
本发明解决其技术问题所采用的技术方案:首先后台根据具体问题描述,将采集到的样本转化成可以供该系统处理的向量模型。其次,将以向量表示的数据集分为训练数据集与测试数据集两部分。在训练步骤中,该系统首先使用基于其开发的不同模型对样本进行降维;其次,经过各方法降维的样本代入后续统一的分类器进行分类;接着,根据分类效果,该系统选择降维效果最好的那个模型。在测试步骤中,选定的模型首先对测试样本进行降维处理;其次,经过处理的模型被代入后续分类器进行识别。
本发明解决其技术问题所采用的技术方案还可以进一步细化。所述训练步骤的第一阶段,由该系统构造的模型可以并不限于包含已有的经典模型。另外,每一个模型中用于调整模型各计算项的权重参数也是连续的。实践中,为兼顾计算效率及精确度,模型常用经典模型,而权重参数往往取有典型性的离散值。其次,由于许多流形学习模型在计算中存在共通点,例如都需要计算近邻关联矩阵,因此共通的步骤可以合在一起完成以大幅降低计算复杂度。最后,生成关联矩阵的样本相似度度量步骤,采用的相似度度量方法默认为欧氏距离。但根据不同情况,可以使用任意度量方式,例如余弦距离、马氏距离等。。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710540291.7/2.html,转载请声明来源钻瓜专利网。