[发明专利]用于自动语音识别的时域特征提取的方法和系统在审
申请号: | 201910527374.1 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110660382A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 方水英;穆罕默德·凯拉;索姆纳特·保罗;查尔斯·奥古斯丁;特尔博·马吉姆德;林佑泽;托比亚斯·博克雷;戴维·皮尔斯 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24 |
代理公司: | 11258 北京东方亿思知识产权代理有限责任公司 | 代理人: | 宗晓斌 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时域特征提取 自动语音识别 | ||
1.一种由计算机实现的用于自动语音识别的特征提取的方法,包括:
接收输入语音信号;
执行增量调制,包括:
将所述输入语音信号的采样的表示值与多个阈值等级中的上限阈值和下限阈值进行比较;以及
至少提供有效指示符和移位指示符,作为所述增量调制的输出,
其中,所述有效指示符指示至少一个阈值等级沿着所述输入语音信号从前一表示值到下个采样的改变,并且
其中,所述移位指示符是指示阈值等级的改变的总量的单个值,所述阈值等级的改变包括与所述有效指示符相关联的多个等级从所述前一表示值到所述下个采样的改变;以及
使用所述有效指示符和所述移位指示符形成梅尔频率相关系数,所述梅尔频率相关系数用于识别所述输入语音信号中的语音。
2.如权利要求1所述的方法,包括:在不使用傅里叶变换的条件下确定所述特征提取,以提供频域信号数据从而执行梅尔标度滤波。
3.如权利要求1所述的方法,包括:通过执行所述增量调制,将模拟输入语音信号转换为数字信号。
4.如权利要求1所述的方法,其中,所述比较包括在离散时域中执行比较,这些比较包括:在同一采样期间并且通过使用时钟,对所述输入语音信号的所述表示值与多个等级的阈值的同步多重比较。
5.如权利要求1所述的方法,其中,采样速率和比较速率至少部分地基于奈奎斯特采样定理。
6.如权利要求1所述的方法,其中,执行增量调制包括:对所述输入语音信号的连续流执行所述增量调制,而不在所述增量调制之前或在所述增量调制期间将所述输入语音信号划分并存储为帧。
7.如权利要求1所述的方法,其中,多个等级的总数目是预计覆盖人类语音频率范围的阈值等级的数目。
8.如权利要求1所述的方法,其中,多个等级的总数目为具有上限阈值和下限阈值的至少两个等级。
9.如权利要求1所述的方法,包括:将所述表示值计算为采样的信号值和分别与不同采样相关联的采样参数项的累加之间的差值,其中,各个采样参数项考虑与所述采样参数项相关联的采样的所述移位指示符。
10.如权利要求9所述的方法,其中,各个采样参数项考虑所述有效指示符,并且其中,各个采样参数项考虑方向指示符,所述方向指示符指示所述输入语音信号从一个采样到另一采样下降还是上升。
11.如权利要求1所述的方法,包括:执行有限冲激响应(FIR)滤波,所述FIR滤波包括修改梅尔频率系数,其中,修改的量取决于所述移位指示符。
12.如权利要求1所述的方法,包括:执行帕塞瓦尔定理相关的能量运算,所述能量运算包括使用通过使用所述移位指示符和所述有效指示符生成的FIR滤波器输出形成中间系数,所述中间系数用于形成用来识别语音中的词的梅尔频率频谱系数(MFSC)或梅尔频率倒谱系数(MFCC)。
13.一种由计算机实现的用于自动语音识别的特征提取系统,包括:
至少一个处理器;
通信地耦合到所述至少一个处理器的存储器;
至少一个梅尔频率有限冲激响应(FIR)滤波器,由所述至少一个处理器操作并且被布置为获取声学输入信号的音频数据,所述音频数据包括人类语音,并且所述梅尔频率FIR滤波器输出修改后的梅尔频率系数的总和;以及
累加器单元,用于执行帕塞瓦尔定理相关的能量运算,所述能量运算包括使用滤波器输出形成中间系数,所述中间系数用于形成用来识别语音中的词的梅尔频率频谱系数(MFSC)或梅尔频率倒谱系数(MFCC)。
14.如权利要求13所述的系统,其中,所述能量运算在不执行滤波器输出的平方的条件下生成滤波器输出的幅度和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910527374.1/1.html,转载请声明来源钻瓜专利网。