[发明专利]一种语音识别方法及系统在审
| 申请号: | 202010696240.5 | 申请日: | 2020-07-20 |
| 公开(公告)号: | CN111862962A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 汪秀英 | 申请(专利权)人: | 汪秀英 |
| 主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/0208;G10L21/0272;G10L15/02;G10L15/06 |
| 代理公司: | 长沙正务联合知识产权代理事务所(普通合伙) 43252 | 代理人: | 郑隽;吴婷 |
| 地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 方法 系统 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信号,并计算待识别语音信号的能量密度谱;
将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;
利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;
利用盲源分离算法估计待识别语音中目标语音信号的mask值;
利用基于mask值的多通道增强算法对目标语音信号进行增强;
利用预训练的DFSMN-CTC模型对语音信号进行识别,得到语音识别结果。
2.如权利要求1所述的一种语音识别方法,其特征在于,所述计算待识别语音信号的能量密度谱,包括:
1)对待识别语音信号进行短时傅里叶变换:
其中:
x(n)为待识别语音的离散时域采样信号,n=0,1,...,N-1,n为时域采样点信号,N为语音信号的长度;
Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步的时间信号,m=0,1,...,M-1,M为帧长;
ω为窗序列;
2)采用离散傅里叶变换DFT得:
其中:
0≤k≤N-1,k为待识别语音的离散时域采样信号的幅度值;
X(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步信号,m=0,1,...,M-1,M为帧长;
N为语音信号的长度;
3)计算时间m处的频谱能量密度函数:
P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)))
其中:
X(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
conj(·)函数用于计算复数的共轭值;
P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,是二维的非负实值函数;
用时间n作为横坐标,k作为纵坐标,将P(n,k)的值表示为灰度级所构成的二维图像就是能量密度谱;通过变换101gP(n,k)得到语谱图的dB表示。
3.如权利要求2所述的一种语音识别方法,其特征在于,所述将能量密度谱进行伪彩色映射,包括:
1)将P(n,k)的最大值Pmax(n,k)映射为归一化1电平,将最小值Pmin(n,k)映射为归一化0电平;
2)将P(n,k)线性映射为0~1间的电平Li,计算机监视器根据Li的值将能量密度谱以伪彩色模式显示出来;
3)选择基准电平值Base,将小于Base的值限定在此基准电平上,将大于Base的值线性映射到0~1的归一化彩色值,则彩色矩阵值L={l(n,k)}的数学表示为:
其中:
Base为基准电平值,本发明将其设为0;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,是二维的非负实值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪秀英,未经汪秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010696240.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可生物降解口罩及其制作方法
- 下一篇:一种家畜称重支撑架





