[发明专利]多麦克风语音活动检测器有效
| 申请号: | 201310046916.6 | 申请日: | 2009-06-25 |
| 公开(公告)号: | CN103137139A | 公开(公告)日: | 2013-06-05 |
| 发明(设计)人: | 俞容山 | 申请(专利权)人: | 杜比实验室特许公司 |
| 主分类号: | G10L25/78 | 分类号: | G10L25/78 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 杨小明 |
| 地址: | 美国加*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 麦克风 语音 活动 检测器 | ||
本申请是申请日为2009年6月25日、申请号为200980125256.2、发明名称为“多麦克风语音活动检测器”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求Rongshan Yu于2008年6月30日提交的题目为“Multi-microphone Voice Activity Detector(多麦克风语音活动检测器)”的、并且已经转让给本申请的受让人(Dolby实验室参考号为:No.D08006US01)的共同未决的美国临时专利申请No.61/077087的权益(包括优先权)。
技术领域
本发明涉及语音活动检测器。更具体地,本发明的实施例涉及利用两个或多个麦克风的语音活动检测器。
背景技术
除非在此指出,否则本部分所描述的方案不是本申请中权利要求的现有技术,并且不会因为包含在本部分而被承认是现有技术。
语音活动检测器(VAD)的一个功能在于检测麦克风所记录的音频信号区域中存在或者不存在人的语音。在关于由VAD模块所决定的语音是否存在于其中的输入信号上使用的不同处理机制的上下文中,VAD在许多语音处理系统中起作用。在这些应用中,精确且鲁棒的VAD性能可影响整体性能。例如,在语音通信系统中,DTX(不连续传输)通常被用来改善带宽使用效率。在这种系统中,利用VAD确定输入信号中是否存在语音,并且如果不存在语音,则停止语音信号的实际传输。这里,将语音错分类为干扰会导致传输信号中的语音减弱,并影响其可理解性(intelligibility)。作为示例,在语音增强系统中,通常需要估计所记录的信号中的干扰信号的水平(level)。这通常是在VAD的帮助下进行的,其中从仅包含干扰信号的部分估计干扰水平。例如,参见A.M.Kondoz的Digital Speech Coding for Low Bit Rate Communication Systems的第11章(John Wiley&Sons,2004)。在这个例子中,不准确的VAD会导致干扰水平的过估计(over-estimate)或低估计(under-estimate),这最终会导致非最理想的(suboptimal)语音增强质量。
之前已经提出了多种VAD系统。例如,参见A.M.Kondoz撰写的Digital Speech Coding for Low Bit Rate Communication Systems的第10章(John Wiley&Sons,2004)。这些系统中的一些利用目标语音和干扰之间的差异的统计方面,并依赖阈值比较方法从干扰信号中区分出目标语音。原先用于这些系统中的统计测量包括能量水平、计时、音调、零相交率、周期测量等。多于一种统计测量的组合被用于更多的复杂系统,以进一步改善检测结果的精度。通常,当目标语音和干扰具有非常明显的统计特征时,例如当干扰具有稳定的并低于目标语音水平的水平时,统计方法取得好的性能。然而,在更不利的环境中,尤其在目标信号水平与干扰水平的比值低时或者干扰信号具有类似语音的特征时,保持好的性能变成非常具有挑战性的任务。
在一些鲁棒的自适应射束形成(adaptive beamforming)系统设计中也可以发现与麦克风阵列组合的VAD。例如,参见O.Hoshuyama,B.Begasse,A.Sugiyama及A.Hirano的“A real time robust adaptive microphone array controlled by an SNR estimate”,Procedings of the 1998IEEE International Conference on Acoustics,Speech and Signal Processing,1998。那些VAD基于麦克风射束形成系统的不同输出水平的差异,其中目标信号仅存在于一个输出中并因为其他输出而被阻塞。因此,这种VAD设计的有效性可以与射束形成系统在因为那些输出而阻塞目标信号时的能力有关,在实时系统中获取这种能力会是昂贵的。
与该背景有关的、但是不被认为是下文部分中将描述的示例性发明实施例的现有技术的其他参考包括:
参考1:A.M.Kondoz,“Digital Speech Coding for Low Bit Rate Communication Systems”,第10章(John Wiley&Sons,2004);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比实验室特许公司,未经杜比实验室特许公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310046916.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:臭蛋及其制造方法
- 下一篇:一种红烧鸡翅的制作方法





