[发明专利]基于DTW和GMM的短词句语音识别方法及系统有效
申请号: | 202110591145.3 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113112999B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 陆成刚;王庆月;谢涛 | 申请(专利权)人: | 宁夏理工学院 |
主分类号: | G10L15/12 | 分类号: | G10L15/12;G10L15/14;G10L15/22 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 753000 宁夏回族自*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dtw gmm 词句 语音 识别 方法 系统 | ||
1.一种基于DTW和GMM的短词句语音识别方法,其特征在于,包括:
获取当前阶段采集的语音音频数据;
根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果;
其中,所述语音音频数据库包括n个短词句,所述内置DTW距离的高斯混合模型包括K支高斯模型,且K=n;所述内置DTW距离的高斯混合模型是根据所述语音音频数据库、DTW算法和高斯混合模型构建的;
所述内置DTW距离的高斯混合模型的构建过程为:
步骤一:对高斯混合模型中的参数αk,uk,σk进行初始化;其中,αk表示高斯混合模型中第k支高斯模型的权重系数,uk表示高斯混合模型中第k支高斯模型的中心矢量,σk表示高斯混合模型中第k支高斯模型的方差;
步骤二:根据公式计算语音音频数据xj属于第k支高斯模型的概率γjk;其中,dDTW(xj,uk)表示语音音频数据xj与参数uk间的DTW距离;j=1,2,...,N;
步骤三:根据所述概率γjk更新参数αk,uk,σk;
步骤四:重复步骤二和步骤三,并当步骤三输出的更新后的参数αk,uk,σk收敛时,停止参数更新,进而得到内置DTW距离的高斯混合模型;
所述根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果,具体包括:
根据所述当前阶段采集的语音音频数据和内置DTW距离的高斯混合模型,计算所述当前阶段采集的语音音频数据属于第k支高斯模型的概率值,进而得到K个概率值;其中,k=1,2,...,K;
确定K个所述概率值中的最大概率值,并将所述最大概率值对应的高斯模型确定为选中高斯模型;
将所述选中高斯模型对应的短词句确定为所述当前阶段采集的语音音频数据的识别结果;其中,一个所述高斯模型对应一个所述短词句,且不同的所述高斯模型对应不同的所述短词句。
2.根据权利要求1所述的一种基于DTW和GMM的短词句语音识别方法,其特征在于,在确定所述内置DTW距离的高斯混合模型的构建过程之前,还包括:构建内存储有不同长度短词句的语音音频数据库;所述语音音频数据库包括N个语音音频数据,且每个所述短词句对应m个语音音频数据,N=n*m。
3.根据权利要求1所述的一种基于DTW和GMM的短词句语音识别方法,其特征在于,所述根据所述概率γjk更新参数αk,uk,σk,具体包括:
确定更新后的参数uk;
根据公式确定更新后的参数σk;其中,公式中的uk为更新后的参数uk;
根据公式确定更新后的参数αk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁夏理工学院,未经宁夏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591145.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无人机的多余度仲裁切换方法、系统及计算机设备
- 下一篇:一种煤炭采样装置