[发明专利]声音信号处理设备、声音信号处理方法和程序无效
申请号: | 201210006581.0 | 申请日: | 2012-01-11 |
公开(公告)号: | CN102610227A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 广江厚夫 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L11/00 | 分类号: | G10L11/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 李渤 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 信号 处理 设备 方法 程序 | ||
技术领域
本发明涉及声音信号处理设备、声音信号处理方法和程序,更具体而言,涉及能够执行伴随有声源方向估计的语音片段(speech section)检测处理的声音信号处理设备、声音信号处理方法和程序。
背景技术
下文中,作为根据现有技术的技术,将首先整体上对语音片段检测进行说明,随后对利用声源方向估计来处理语音片段检测的方法进行说明。
语音片段检测(SD:语音检测)指在经由包括在例如声音信号处理设备中的麦克风输入的声音信号中切割出其中人说话的片段的处理。语音片段检测(SD)也被称为VAD(话音活动性检测)。
在说明书中,从声音信号中切割出人的说话片段的处理将被称为“语音片段检测”或者简称为“片段检测”。另外,“片段”并不限于语音的片段,而是可以表示其中给定的声源持续活动(持续生成声音)的片段。
语音片段检测有时与语音识别、声源提取等一起使用。然而,在任何一种情况下,在片段检测中都需要高精度。
例如,由于在许多声音识别装置中执行诸如对通过片段检测切割出的片段的匹配之类的处理,因此片段检测的精度对语音识别的精度有很大的影响。即,当在实际说话的片段和通过片段检测器检测出的片段之间存在差异时,该差异可能导致错误的识别。
另一方面,在声源提取中,有时使用片段检测。例如,当期望从话音和噪声彼此混合的信号中提取出清楚的话音时,或者当期望在两个或更多个人同时说话的环境中提取出一个人的话音时,有必要根据提取声源的方法将输入信号划分为其中仅噪声被生成的片段和其中话音和噪声两者都被生成的片段。因此,为了将输入信号划分为这些片段,使用了片段检测。
通过在仅有目标话音单独存在时提取声源,片段检测有时可以被用来减少计算量或者防止适应无声片段。在与声源提取一起使用的语音片段检测中,即使在其中话音和噪声彼此混合或者多个话音彼此混合的输入信号中,也有必要高精度地进行操作。
为了满足上述使用,已经作出了各种建议来提高语音片段检测中的精度。这里,关注要使用的麦克风的数目,这些建议被分类为以下两种方法。
(1)使用单个麦克风的方法
该方法是一种从输入信号中提取表示“话音相似性”(voice likeness)的特征并基于该值执行片段检测的方法。
该处理例如在日本专利4182444号中公开。
(2)使用多个麦克风的方法
该方法是一种利用声源的方向执行片段检测的方法。
该处理例如在日本专利4282704号和日本专利申请公开2010-121975号中公开。
在本说明书中公开的技术使用上述方法(2),即,使用多个麦克风的方法。因此,下文中,将对使用方法(2)的声源方向的方法的概况进行说明。
基于声源方向的语音片段检测的基本思想如下。
从麦克风看,从同一声源生成的声音在同一方向上到达。因此,以预定时间间隔估计声源的到达方向(DOA),计算其中同一方向上的声音持续被生成的片段,并且将该片段确定为其中声源活动(声音从声源生成)的片段。当对人的说话执行该处理时,检测出语音片段。
下文中,来自声源的到达方向(DOA)也被简称为“声源方向”。
当估计声源方向的方法被应用于多个声源中的每一个时,即使多个声源同时活动(例如,即使当多个人的话音覆盖时),也能够针对每个声源计算片段。
例如,在紧接着一个人的说话结束之前,另一人开始说话的情况下,在使用“话音相似性”的方法中,其中这两段说话彼此连接的长区域被检测为一个片段,而在估计方向的方法中,这两个说话的各自片段能够被彼此区分并且能够被检测。
将参考图1A至1D对利用声源方向估计检测语音片段的方法的概况进行说明。
图1A是示出输入信号(或者也称为“观测信号”)的图像的示图。两人分别说出“Hello”(你好)和“Good-by”(再见)。
如图1B所示,输入信号被划分为具有预定长度的块。
图1B中所示的块11表示所划分的块之一。该块的长度与正常说话的长度相比具有充分短的值。例如,该长度被设置为1/10秒或者1/8秒。
对每个块执行声源方向的估计。
图1C示出了估计结果。横轴表示时间而纵轴表示方向。该方向指声源方向相对于话音被输入的麦克风的角度(见图2)。
图1C中所示的点是方向点(direction point)12。方向点表示在每个块内计算出的声源方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210006581.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种公交车下车指示灯
- 下一篇:槟榔抗晕灵果糕的制备方法