[发明专利]信息处理装置和方法、程序及记录介质有效

申请号：	200710162893.X	申请日：	2007-10-22
公开（公告）号：	CN101165779A	公开（公告）日：	2008-04-23
发明（设计）人：	小林由幸	申请（专利权）人：	索尼株式会社
主分类号：	G10L21/00	分类号：	G10L21/00;G10L15/00;G10L15/02
代理公司：	北京东方亿思知识产权代理有限责任公司	代理人：	董方源
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息处理装置方法程序记录介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

相关申请的交叉引用

本发明包含涉及于2006年10月20日向日本专利局提交的日本专利申请JP 2006-286261以及于2006年10月31日向日本专利局提交的日本专利申请JP 2006-296143的主题，其全部内容通过引用结合于此。

技术领域

本发明涉及一种信息处理装置和方法、一种程序以及一种记录介质，具体地讲，涉及允许提取数据特征的信息处理装置和方法、程序以及记录介质。

背景技术

以预定方式处理信息和从数据中提取表示数据特征的特征量的技术是公知的。在这些技术中，表示按时间顺序连续的预定区域的数据的特征的特征量可以被提取。

在相关技术参考中，在使用声音识别处理的结果的信息处理的执行过程中，对其执行声音识别处理的目标是变化的。声音识别处理的声音识别环境设置根据目标而改变。此后，根据改变后的设置对改变后的目标执行声音识别处理(例如，见日本专利特许公开2005-195834)。

发明内容

然而，当数据被预划分成多个区域并提取每个区域的特征时，将难以考虑前面的区域(或多个区域)对当前区域的影响。

当尽量增加最终获得的特征量的分辨率时，有必要增加将被划分的数据的重叠。结果，处理量与分辨率成比例地增加。

当数据实时输入时，由于每当存储了预定量的数据就执行处理，所以从数据中提取特征的算法越复杂，在数据被输入之后直到最终获得特征量的时间延迟就越长。

换言之，通过区域的数据被输入的时间和数据被处理的时间之和获得在数据被输入之后直到最终获得的特征量被输出的时间延迟(等待时间)。因此，从数据中提取特征的算法越复杂，处理数据所需的时间就越长，即，时间延迟(等待时间)越长。

此外，当从表示连续量的数据中直接提取特征时，有必要设计专用模型和更多的教师数据(teacher data)用来学习特征提取设备的参数。在相关技术中，没有使用通用特征提取设备。此外，没有用少量教师数据来学习参数。

考虑到上面的问题，期望提供允许数据的特征被容易且快速地提取的技术。

根据本发明的实施例，提供了一种信息处理装置。该信息处理装置包括分析部分、连续特征量提取部分、分割部分、区域特征量提取部分和目标特征量评估部分。分析部分在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。连续特征量提取部分从所述分析部分的分析结果中提取连续特征量，所述连续特征量是按时间顺序连续的特征量。分割部分将所述连续特征量分割成多个区域，所述多个区域中的每个具有预定的长度。区域特征量提取部分从所述连续特征量被分割成的多个区域中的每个中提取区域特征量，所述区域特征量是由一个标量或向量表示的特征量。目标特征量评估部分从所述区域特征量的每个中评估目标特征量，所述目标特征量是表示声音数据的一个特征的特征量。

可以通过学习由按时间顺序连续的声音数据和表示在连续特征量被分割成的多个区域中的每个区域中表示声音数据的一个正确特征的特征量构成的教师数据来预创建目标特征量评估部分。

分析部分可以将按时间顺序连续的声音数据按时间顺序连续地分析成每个八音阶的12平均律的音程(musical interval)的声音。连续特征量提取部分可以从作为所述分析部分的分析结果获得的并且表示每个八音阶的12平均律(12 equal temperament)的音程的能量的数据中提取连续特征量。

目标特征量评估部分可以评估将音乐或谈话标识为声音数据的特征的目标特征量。

信息处理装置还可包括平滑部分，用于通过获得目标特征量的滑动平均值来平滑目标特征量。

信息处理装置还可包括存储部分，用于将标识由所评估的目标特征量表示的特征的标记添加到声音数据，并存储已经添加了标记的声音数据。

信息处理装置还可包括算法创建部分，用于根据GA(遗传算法)或GP(遗传规划)创建从按时间顺序连续的声音数据中提取连续特征量的算法。

根据本发明的实施例，提供了一种信息处理方法。在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。从分析结果中提取连续特征量，所述连续特征量是按时间顺序连续的特征量。所述连续特征量被分割成多个区域，所述多个区域中的每个具有预定的长度。从所述连续特征量被分割成的多个区域中的每个中提取区域特征量，所述区域特征量是由一个标量或向量表示的特征量。根据所述区域特征量的每个评估目标特征量，所述目标特征量是表示声音数据的一个特征的特征量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于索尼株式会社，未经索尼株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710162893.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]信息处理装置和方法、程序及记录介质有效

专利文献下载