[发明专利]用于音频特征提取的倒谱方差归一化有效
| 申请号: | 201480083583.7 | 申请日: | 2014-12-22 |
| 公开(公告)号: | CN107112011B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | A.马雷克;T.博克莱特 | 申请(专利权)人: | 英特尔公司;A·马雷克 |
| 主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L17/02;G10L17/20 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 徐红燕;杜荔南 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 音频 特征 提取 方差 归一化 | ||
描述了用于音频特征提取的倒谱方差归一化。在一些实施例中,一种方法包括:接收来自麦克风的数字化音频的帧序列;确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;确定针对所述帧序列中的每个后续帧的下一个特征向量;在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和将所确定的特征向量发送到音频处理流水线的识别级。
技术领域
本说明书涉及音频处理,并且尤其涉及确定用于倒谱系数特征向量的统计值。
背景技术
话音或语音识别越来越多地被用作许多不同类型的计算设备中的用户接口的一部分。许多蜂窝电话允许用户按下按钮并对麦克风说话以执行查询并执行各种不同的命令。便携式和台式计算机执行类似的功能。这些系统还可以将语音转换为文本,并将其用作对于约会、消息或存储文档的文本输入。这些系统中的一些系统在设备中本地处理用户语音,但是许多系统将语音的记录发送到远程服务器。汽车还可以接收话音命令以及查询以操作导航系统或车辆中的包括进行呼叫和发送消息的其他功能。话音或语音识别也用于识别、登录和其他目的。
用户更喜欢快速响应话音输入;然而,可能需要大量的处理资源来完成语音或任何其他音频的准确分析。此外,许多语音分析技术被设计为接收完整的话语,并且然后将完整的话语整体地进行分析。这要求系统等待用户停止说话,并且然后开始使用整个话语进行处理。这种固有的等待时间可能令人烦恼,特别是与键盘和鼠标输入的即时性相比而言。对于某些系统,可能没有足够的可用存储器来对话语进行缓冲,使得语音分析是不可能的。
用于语音识别的一种技术是分析针对梅尔频率倒谱系数(MFCC)的语音。将MFCC与用于自动语音识别(ASR)和说话者识别的参考进行比较。为了改进MFCC的准确性和可靠性,将倒谱均值减法(CMS)与倒谱方差归一化(CVN)结合使用。CVN可以被认为是噪声归一化,因为减去了信号的均值,这导致移除了平稳噪声。这些技术允许系统不仅用于对于用户输入的目的产生良好效果,而且还用于对用户验证和登录密码产生良好效果。
附图说明
实施例在附图中通过示例而非限制的方式被图示出,其中相似的参考标记表示相似的元件。
图1是根据实施例的针对音频流水线中的音频采样流的特征向量计算的图。
图2是根据实施例的针对音频采样的流的特征向量确定的过程流程图。
图3是根据实施例的语音识别系统的框图。
图4是根据实施例的并入音频处理的计算设备的框图。
具体实施方式
描述了一种用于倒谱方差归一化的技术,其可以在小型、便携式或固定设备中本地实时地执行,以用于验证说话者的身份,理解命令以及用于其他应用。
为了在MFCC(梅尔频率倒谱系数)中执行CMS(倒谱均值减法)和CVN(倒谱方差归一化),在完整的音频文件上估计MFCC的均值和方差。然后,将估计用来在音频文件上按帧应用归一化。如本文所述,由于音频是逐个采样地接收的,所以可以执行CVN。这可以在没有任何缓冲的情况下完成。使用所描述的技术,识别的准确性通过无需归一化的实时特征提取而被大大地改进,并且与取证分析中执行的离线特征提取的准确性类似。
下面可以以方程式的形式陈述用于使用整个音频文件离线确定CMS和CVN的典型技术。
方程式1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司;A·马雷克,未经英特尔公司;A·马雷克许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480083583.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合锂离子电池三元正极材料及其制备方法
- 下一篇:瓶贴(食用油)





