[发明专利]生成音频模型的方法、设备和检测场景类别的方法、设备无效
申请号: | 201010292484.3 | 申请日: | 2010-09-21 |
公开(公告)号: | CN102411930A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 刘昆 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L21/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;陈炜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 音频 模型 方法 设备 检测 场景 类别 | ||
1.一种生成场景音频模型的设备,包括:
幅度谱计算装置,针对同一类别的场景音频的多个样本中的每个样本,计算所述样本的每个分段的每个帧的幅度谱,其中所述每个帧的幅度谱包括各个频率区间的幅度谱;
突变识别装置,在每个帧的幅度谱中识别满足下述条件的一对频率区间:所述一对频率区间的幅度谱之差超过预定程度,并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间;
噪声估计装置,通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声,估计在每个频率区间上所述样本的每个分段的噪声功率;
滤波装置,通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除;
特征提取装置,从经过所述滤波装置处理的幅度谱中提取音频特征;和
训练装置,根据所提取的音频特征训练出场景音频模型。
2.如权利要求1所述的设备,其中所述突变识别装置进一步被配置为在存在满足所述条件的多对频率区间的情况下,选择这样的一对频率区间:在每个帧的幅度谱中,幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。
3.如权利要求2所述的设备,其中所述预定值在50%至70%的范围内。
4.如权利要求1所述的设备,其中所述噪声估计装置进一步被配置为对于每个频率区间,
如果在每个分段的各个帧的幅度谱中,该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较高,则随着所述次数的增加,将该分段的噪声功率估计得相对较低,并且
如果在每个分段的各个帧的幅度谱中,该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较低,则随着所述次数的增加,将该分段的噪声功率估计得相对较高。
5.如权利要求4所述的设备,其中每个频率区间n上每个样本的每个分段的噪声功率NoiseAvgSpec[n]为
其中,Nx表示所述分段的各个帧的幅度谱中幅度谱小于所识别的相应一对频率区间的幅度谱中的较大幅度谱的频率区间的幅度谱之和,
NoverAvgSpec(n)表示所述分段的各个帧的幅度谱中频率区间n的幅度谱大于所识别的相应一对频率区间的幅度谱中的较大幅度谱的次数之和,
MAX_NoverAvgSpec表示各个频率区间n针对所述分段的NoverAvgSpec(n)中的最大值。
6.如权利要求1所述的设备,其中所述幅度谱之差超过预定程度包括所述差超过预定阈值,或所述差与所述帧的幅度谱中的最大幅度谱的比值超过预定阈值。
7.一种生成场景音频模型的方法,包括:
针对同一类别的场景音频的多个样本中的每个样本,计算所述样本的每个分段的每个帧的幅度谱,其中所述每个帧的幅度谱包括各个频率区间的幅度谱;
在每个帧的幅度谱中识别满足下述条件的一对频率区间:所述一对频率区间的幅度谱之差超过预定程度,并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间;
通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声,估计在每个频率区间上所述样本的每个分段的噪声功率;
通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除;
从经过所述滤波装置处理的所述幅度谱中提取音频特征;和
根据所提取的音频特征训练出场景音频模型。
8.如权利要求7所述的方法,其中所述一对频率区间的识别包括:
在存在满足所述条件的多对频率区间的情况下,选择这样的一对频率区间:在每个帧的幅度谱中,幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。
9.如权利要求8所述的方法,其中所述预定值在50%至70%的范围内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010292484.3/1.html,转载请声明来源钻瓜专利网。