[发明专利]利用话音识别器反馈来进行语音活动检测有效
申请号: | 201210044558.0 | 申请日: | 2012-02-24 |
公开(公告)号: | CN102708855B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | A·J·K·泰姆白瑞德南;朱卫武;F·T·B·西德 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L15/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 高见 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 话音 识别 反馈 进行 语音 活动 检测 | ||
本文描述了利用话音识别器反馈来进行语音活动检测。语音活动检测(VAD)模块分析诸如音频文件或视频文件之类的媒体文件,以确定该媒体文件的一个或多个帧是否包括话音。话音识别器生成与VAD确定的准确度有关的反馈。VAD模块利用该反馈来改进后继VAD确定。VAD模块还利用与媒体文件相关联的超前窗口来调节先前处理的帧的估计概率或VAD判定。
技术领域
本发明涉及利用话音识别器反馈来进行语音活动检测。
背景技术
语音活动检测(VAD)是用在话音处理中的检测人类话音存在或不存在的技术。VAD常常被用在各种不同的系统中,诸如例如包括话音编码、语音增强、话音识别以及回声抵消的系统。通过使用VAD,一旦确定特定内容块或信号的一部分是话音,话音识别技术就可被用来识别话音并将讲出的词语转换成文本。对于诸如在线话音识别之类的各种类型的话音识别,VAD常常是事后补记。因此,被设计成用于非VAD任务的组件常常被或多或少地修改,以执行各种VAD功能。然而,由于这些VAD组件并非是针对这些VAD功能而设计的,因此VAD可能是不准确和/或低效的。
发明内容
本文中描述了用于利用来自话音识别器的反馈来改进语音活动检测(VAD)的技术。在各个实施例中,VAD模块可确定媒体文件的帧包括话音还是非话音。一旦帧被分类为话音帧和/或非话音帧,话音识别器就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。此外,VAD模块可利用由话音识别器提供的反馈来改进尚未被VAD模块处理的帧的VAD。在各个实施例中,VAD模块和话音识别器可异步地处理媒体文件,以使得VAD模块在话音识别器之前处理媒体文件的帧。
在其他实施例中,本文中描述了用于利用超前窗以改进媒体文件的VAD的技术。更具体地,可维护第一帧是包括话音还是非话音的概率。此外,可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。与第一帧相对应的VAD判定可被延迟,直至下游组件实际需要VAD判定。此时,当前概率可被返回,且当处理附加帧时,可更新此概率。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
附图说明
参考附图来阐明详细描述,附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在相同或不同附图中使用同一附图标记指示相似或相同的项或特征。
图1图解了根据各个实施例的用于利用来自话音识别器的反馈来改进语音活动检测的系统。
图2图解了根据各个实施例的使用超前窗来改进语音活动检测的系统。
图3是根据各实施例的图解可以实现本文描述的语音活动检测方法的代表性计算设备的框图。
图4图解了示出用于利用来自话音识别器的反馈来指导语音活动检测的示例性过程的流程图。
图5图解了示出用于提供与语音活动判定相关联的反馈来指导语音活动检测的示例性过程的流程图。
图6图解了示出用于利用超前窗来更新媒体文件的帧的概率的示例性过程的流程图。
详细描述
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210044558.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的设备位置检测
- 下一篇:使用持久导标的可滚动列表导航