[发明专利]信息处理设备、信息处理方法和程序无效
| 申请号: | 201110137946.9 | 申请日: | 2011-05-26 |
| 公开(公告)号: | CN102279977A | 公开(公告)日: | 2011-12-14 |
| 发明(设计)人: | 青山一美;佐部浩太郎 | 申请(专利权)人: | 索尼公司 |
| 主分类号: | G06T7/20 | 分类号: | G06T7/20;G06K9/62 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 曲瑞 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 设备 方法 程序 | ||
技术领域
本发明涉及信息处理设备、信息处理方法和程序,更具体来讲,涉及被设计用于能够判定人(作为例如运动图像中的被摄体)的语音段的信息处理设备、信息处理方法和程序。
背景技术
在相关技术中,存在一种用于从静止图像中检测预先学习的预定物体的技术,例如,根据日本未经审查的专利申请公开No.2005-284348,可以从静止图像中检测人的面部。更具体来讲,在静止图像中,将多个两像素组合设置为物体(在这种情况下,人的面部)的特征量,并且计算每个组合中的两个像素的值(亮度值)之差,由此基于特征量判定是否存在已学习的物体。特征量是指PixDif特征量,在下文中也被称作像素差特征量。
另外,在相关技术中,存在一种用于辨别运动图像中被摄体的运动的技术,例如,根据日本未经审查的专利申请公开No.2009-223761,可以判定表明人(运动图像中的被摄体)正在说话的时间段的语音段。更具体来讲,计算运动图像中相邻两帧中的所有像素的值之差,并且基于计算结果检测语音段。
发明内容
日本未经审查的专利申请公开No.2005-284348中描述的像素差特征量可以用相对小的计算成本来计算特征量,在使用特征量检测物体的处理中可以获得相对高的精确度。然而,像素差特征量表明静止图像中的特征量,所以在例如辨别运动图像中人的语音段的情况下不能被用作时序特征量。
根据日本未经审查专利申请公开No.2009-223761中描述的发明,可以辨别运动图像中人的语音段。然而,本发明仅关注相邻两帧之间的关系,并且难以提高辨别的精确度。另外,由于将计算两帧中所有像素值之间的差,因此计算量相对大。因此,当图像中存在多个人并且将检测每个人的语音段时,难以执行实时处理。
本发明考虑了以上情况,希望以高精确度迅速辨别其中运动图像中的被摄体显示出运动的运动段。
根据本发明的实施例,提供了一种信息处理设备,其包括:第一产生装置,其用于分别对应于学习运动图像的各帧产生学习图像,在所述学习运动图像中,对进行预定运动的物体成像;第一合成装置,其用于对合成学习图像进行合成,使得顺序产生的学习图像中的一个被设置成用作基准,包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且被合成;学习装置,其用于计算所产生的所述合成学习图像的特征量,并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器,所述辨别器辨别用作输入合成辨别图像的基准的判定图像是否对应于所述预定运动;第二产生装置,其用于产生分别对应于判定运动图像的各帧的判定图像,判定所述判定图像是否对应于所述预定运动;第二合成装置,其用于产生合成判定图像,使得顺序产生的所述判定图像中的一个被设置成用作基准,并且包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且被合成;特征量计算装置,其用于计算所产生的所述合成判定图像的特征量;以及判定装置,其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分,判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。
图像的特征量可以是像素差特征量。
根据本发明的实施例,所述信息处理设备还包括:归一化装置,其用于归一化作为通过计算出的所述特征量输入到所述辨别器得到辨别结果的评分,并且所述判定装置可以基于归一化的所述评分判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。
所述预定运动可以是作为物体的人的语音,并且所述判定装置可以基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分,判定用作所述合成判定图像的所述基准的所述判定图像是否对应于语音段。
所述第一产生装置可以从其中说话的人被作为物体成像的所述学习运动图像的各帧中检测人的面部区域,从检测到的所述面部区域中检测唇部区域,并且基于检测到的所述唇部区域产生唇部图像作为所述学习图像,并且所述第二产生装置可以从所述判定运动图像的各帧中检测人的所述面部区域,从检测到的所述面部区域中检测所述唇部区域,并且基于检测到的所述唇部区域产生唇部图像作为所述判定图像。
当从所述判定运动图像中待处理的帧中没有检测到所述面部图像时,所述第二产生装置可以基于之前帧中检测到的面部图像的位置信息产生所述唇部图像作为所述判定图像。
所述预定运动可以是作为物体的人的语音,并且所述判定装置可以基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分,判定对应于用作所述合成判定图像的所述基准的所述判定图像的语音内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110137946.9/2.html,转载请声明来源钻瓜专利网。





