[发明专利]模式识别装置和方法有效

专利信息
申请号: 200810080948.7 申请日: 2008-02-29
公开(公告)号: CN101520847A 公开(公告)日: 2009-09-02
发明(设计)人: 刘汝杰;王月红;马场孝之;远藤进;椎谷秀一;上原祐介;增本大器;长田茂美 申请(专利权)人: 富士通株式会社
主分类号: G06K9/62 分类号: G06K9/62;G10L15/10
代理公司: 北京三友知识产权代理有限公司 代理人: 李 辉
地址: 日本神奈*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模式识别 装置 方法
【说明书】:

技术领域

发明涉及模式识别装置和方法,更具体地说,本发明涉及采用半 监督学习机制在核空间内对模式对象进行线性嵌入描述从而实现模式识 别的装置和方法。

背景技术

为了实现模式识别、排序和检索等目的,传统的方法往往依靠一些 已标注的对象样本来进行训练、学习以获得一个目标函数,从而实现上 述的功能。举例来说,在手写体数字识别中,需要预先收集一些手写数 字的图像,然后对这些图像样本进行处理和学习,从而得到一个分类函 数。例如:首先对图像进行二值化处理,然后提取笔划方向和结构信息 特征,最后根据这些特征判断数字的类别,即生成分类函数进行识别分 类。在这一学习过程中,需要告知各个图像中的数字的真实值,即需要 对这些图像样本进行标注。分类函数的输入为手写数字图像(或者是对 应的特征),输出为该图像中的数字的值。这样,当需要识别一个新的手 写数字图像时,直接将该手写数字图像输入上述分类函数,即可得到其 中的数字的值。

然而,在实际应用中,获取标注样本往往需要花费很多的时间和精 力,而且只有专业的人员才能完成获取标注样本的任务。例如,在生物 和计算科学领域中,为了对蛋白质进行分类,需要获取蛋白质的形状样 本进行预学习,然而,即使是专业的结晶体分析人员,也需要花费几个 月的时间才能获取一个蛋白质样本。与此相反,未标注样本往往大量存 在,而且很容易获取。因此,如何将未标注样本同标注样本结合起来, 并从中提取有用的信息,就成为机器学习领域的一个重要任务。

标注样本和未标注样本的区别在于是否提供了与其对应的目标值。 所谓的未标注样本,仅是一个被处理对象,而标注样本则不仅包含被处 理对象,还包含该被处理对象的目标值。例如,在手写体数字识别中, 未标注样本就是一个手写体数字图像,而标注样本除了包含该图像以外, 还包含该图像中的数字的真实值。

依靠标注样本进行模式分类的方法可以分为两类,即:监督学习和 半监督学习。监督学习是指仅仅依靠标注样本进行学习、训练,并从中 得到分类函数;半监督学习是指同时从标注样本和未标注样本中进行学 习的机制和方法。半监督学习的基本思路为:未标注样本中虽然不包含 对象的目标值,因而不能像标注样本那样直接进行学习和训练,然而, 这些未标注样本中包含了一些关于对象样本空间分布的有用信息。如果 能够将这些有用信息提取出来,并同标注样本结合在一起,就能帮助提 高分类、识别的性能。给定一个模式识别问题,如果能提供足够多的标 注样本进行学习、训练,那么监督学习方法也能达到较好的性能;然而, 如果标注样本较少,例如上述的蛋白质分类问题,监督学习方法往往失 败。与此相反,由于半监督学习方法能从未标注样本中提取有用的信息, 因此,能大大提高识别的性能。

在半监督学习机制中,给定一个由标注样本和未标注样本组成的样 本集合(称为部分标注样本集,一般来说,该集合包含少量的标注样本 和大量的未标注样本)后,首先分析这些样本的内在结构,得到其空间 分布特征;然后,基于样本的空间分布和标注样本进行学习;最后,对 未标注样本进行分类、排序。

在实际应用中,输入的模式对象样本往往包含很多变量,即这些样 本位于一个高维空间中。例如在手写体数字识别中,输入的对象样本均 为图像,因此,对象样本原始空间的维数就可以看作为图像中的像素数。 然而,这些图像样本的内在空间的维数远低于其原始空间的维数。以数 字O为例,如果用椭圆来近似这个数字的话,其内在空间的维数为4,即 中心坐标和长短轴的半径。考虑到手写数字的变形以及椭圆近似的畸变 等因素,与数字O对应的图像样本的内在维数要高于4,然而,这个值还 是要远远小于图像中的像素数。基于这种现象,半监督学习机制一般都 假设:(1)高维空间中的这些数据样本具有内在的低维空间结构,而且, 在这个低维空间中服从流型结构分布,所谓流型结构分布,是指这些样 本的分布是平滑的;(2)在该流型结构上,近邻的样本点一般具有相同 的类别或标号。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810080948.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top