[发明专利]一种复杂环境下语音特征映射方法有效
申请号: | 201710151497.0 | 申请日: | 2017-03-14 |
公开(公告)号: | CN106782520B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 王志锋;郭天学;左明章;田元;姚璜 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/02;G10L15/14;G10L17/02;G10L17/06 |
代理公司: | 42222 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人: | 魏波<国际申请>=<国际公布>=<进入国 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 环境 语音 特征 映射 方法 | ||
1.一种复杂环境下语音特征映射方法,其特征在于,包括以下步骤:
步骤1:提取干净环境下的语音信号的特征;
步骤1的具体实现包括以下子步骤:
步骤1.1:对干净环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
步骤1.3:使用混合高斯模型对步骤1.2中得到的特征建立统计模型,得到干净环境下语音信号的模型Λ;
步骤2:对复杂环境下的语音进行特征提取;
步骤2的具体实现包括以下子步骤:
步骤2.1:对复杂环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征,记为Y=[y1,y2,...,yi,...,yn],yi表示复杂环境下第i帧的语音特征;
步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;
骤3的具体实现包括以下子步骤:
步骤3.1:将特征的每一帧yi都进行映射,映射形式为:
xi=A·yi+B,简记为:xi=F(yi);
其中yi为复杂环境下语音特征的第i帧语音特征,xi为通过特征映射函数后得到的第i帧特征,A为增益矩阵,B为偏移矩阵;
A为d行d列的对角矩阵,B为d行1列的矩阵;d为帧长,在分帧的步骤中设置;
步骤3.2:根据最大似然函数和已知模型Λ对F进行参数估计:
其中Λ为步骤1.3中训练的干净语音模型;
步骤3.3:根据当前Ft的参数来构造辅助函数计算新的F的参数:
其中,Ft为当前帧的映射函数,F为新的一帧的映射函数;θ表示语音信号状态序列,X表示语音信号特征,C表示所处高斯分量,m表示混合高斯模型的高斯数,n表示语音信号的帧数;
p(Cj|Λ)=ωj
其中,ωj表示第j个高斯的权重,μj和Σj分别为第j个高斯分量的均值和方差,为方便记为:
步骤3.4:由步骤3.3可得到辅助函数为:
对各项展开可得:
其中μj,k,δj,k分别表示F的第k个参数的第j个高斯的均值和标准差,yi,k表示映射前的第i帧语音特征的第k个矢量,ak,bk分别为F中增益矩阵a和偏移矩阵b的第k个参数;
步骤3.5:对步骤3.4中的展开式分别求F关于ak,bk的偏导数:
将以上两式展开可得:
步骤3.6:为方便计算,分别将以下统计量替代步骤3.5中的统计量:
则步骤3.5中的方程式可写为:
解上述方程组得:
步骤3.7:将解得的A,B代入步骤3.1中即可求得经过映射后的语音信号特征X,视为干净环境下的语音特征;
步骤4:模式匹配与识别。
2.根据权利要求1所述的复杂环境下语音特征映射方法,其特征在于:干净环境下的语音帧数和复杂环境下的语音帧数保持一致。
3.根据权利要求1或2所述的复杂环境下语音特征映射方法,其特征在于:步骤4中,当得到复杂环境下通过特征映射之后的特征后,对得到的特征建立统计模型,采用HMM-GMM模型,然后进行模型匹配,进行语音识别/说话人识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710151497.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于置信度的语音识别实现方法及系统
- 下一篇:一种语音识别系统