[发明专利]音频信号处理设备、音频信号处理方法和程序无效
申请号: | 201210027300.X | 申请日: | 2012-02-02 |
公开(公告)号: | CN102637435A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 光藤祐基;西口正之 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L21/00 | 分类号: | G10L21/00 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 设备 方法 程序 | ||
技术领域
本发明涉及音频信号处理设备、音频信号处理方法及程序。更详细地,本发明涉及执行例如针对每一个声音源来分离其中混合有多个信号的信号的处理的音频信号处理设备、音频信号处理方法及程序。
本发明涉及例如在来自各种声音源的声音(例如,语音和杂音)被混合输入的环境中选择并分离来自特定声音源的声音(例如,与用户的语音相对应的音频命令)的信号处理设备、信号处理方法和程序。
背景技术
在诸如信息处理设备和家用电器之类的近来的设备中,存在设有作为音频输入单元的麦克风的那些设备,这些设备辨识出从麦克风输入的用户语音并基于辨识结果来执行各种动作。即,这些设备通过分析来将用户所讲的词解析为音频命令,以根据命令来执行处理。
虽然在按音频命令执行处理的设备中要求执行准确的音频辨识,但结果是,在生成各种杂音和噪声的环境中,除用户语音之外,信号还将来自各种声音源的噪声混合到要经由作为音频输入单元的麦克风输入的音频信号中。
为了从这种混合信号中提取出用户语音,在许多设备中,经由麦克风的输入信号被输入到执行声音源分离处理以执行分离用户语音的处理的信号处理单元。之后,基于分离提取的用户语音来执行命令解析。
作为公开了声音源分离处理的现有技术,例如有日本未实审专利申请公布No.2006-238409和日本未实审专利申请公布No.2008-134298。这些专利文件公开了基于独立分量分析(ICA)的声音源分离处理。
但是,在该声音源分离处理中存在简单配置不足以完成分离处理功能的问题,以及针对高分离功能的处理负荷和处理时间增加,从而作为设备的成本也增加的问题。为了在一般的家用电器等中提供声音源分离功能,需要将处理负荷和成本抑制为较低。另外,由于过去的声音源分离处理独立地具有作为分离模块的、在前期阶段的分离处理和在后期阶段的分离处理,所以具有如下问题:很难执行整体优化,例如使用辨识所需的特征量的信息来执行分离处理。
发明内容
希望提供带有简单配置并且还使能执行整体优化并使能更高准确性的声音源分离的音频信号处理设备、音频信号处理方法和程序。
本发明的一个实施例是音频信号处理设备,包括:时间频率分析单元,对输入音频信号执行时间频率分析;基底分解单元,输入学习数据并通过应用总基底频率来对从时间频率分析单元输入的对输入音频信号的时间频率分析结果执行基底分解以生成输入音频信号的基底活动,所述学习数据是基于包括来自多个声音源的声音的学习用音频信号来预先生成的并且由与各个声音源相对应的基底频率组成,所述总基底频率组合有与各个声音源相对应的基底频率;以及命令识别单元,输入来自基底分解单元的基底活动,以通过对所输入的基底活动执行识别处理来执行命令识别。
此外,在本发明一个实施例的音频信号处理设备中,学习数据是基于包括具有与要被识别为命令的声音相对应的基底频率的目标声音和不是识别对象的非目标声音的学习用音频信号来生成的学习数据,并且基底分解单元通过应用组合有与所述目标声音相对应的基底频率和与所述非目标声音相对应的基底频率的总基底频率,来对从时间频率分析单元输入的对所述输入音频信号的时间频率分析结果执行基底分解,以生成针对所述输入音频信号的基底活动。
此外,在本发明一个实施例的音频信号处理设备中,时间频率分析单元对输入音频信号执行时间频率分析,生成时间频率谱,并进一步基于该时间频率谱来计算功率谱,以将该功率谱作为时间频率分析结果来提供给基底分解单元。
此外,在本发明一个实施例的音频信号处理设备中,基底分解单元从时间频率分析单元输入基于输入音频信号生成的功率谱,并通过对所输入的功率谱应用总基底频率来执行基底分解以生成针对输入音频信号的基底活动。
此外,在本发明一个实施例的音频信号处理设备中,命令识别单元执行如下处理:从基底分解单元输入基底活动,并通过在所输入的基底活动和预先设定的阈值之间执行比较处理来判定命令和非命令。
此外,在本发明一个实施例的音频信号处理设备中,音频信号处理设备具有学习处理单元,该学习处理单元基于包括来自多个声音源的声音的学习用音频信号来生成由与各个声音源相对应的基底频率组成的学习数据,并且基底分解单元通过应用由学习处理单元生成的学习数据来生成输入音频信号的基底活动。
此外,本发明的另一个实施例是一种音频信号处理设备,包括:学习处理单元,预先计算对音频命令的正负判断所需的特征量;和分析处理单元,使用在学习处理单元中学习到的特征量来执行声音源分离处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210027300.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:牙刷
- 下一篇:一种大容量变压器绕组导线的拉紧结构