[发明专利]基于DTW和GMM的短词句语音识别方法及系统有效
申请号: | 202110591145.3 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113112999B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 陆成刚;王庆月;谢涛 | 申请(专利权)人: | 宁夏理工学院 |
主分类号: | G10L15/12 | 分类号: | G10L15/12;G10L15/14;G10L15/22 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 753000 宁夏回族自*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dtw gmm 词句 语音 识别 方法 系统 | ||
本发明公开了一种基于DTW和GMM的短词句语音识别方法及系统,涉及语音识别技术领域,包括根据获取的当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果;其中,语音音频数据库包括n个短词句,内置DTW距离的高斯混合模型包括K支高斯模型,且K=n;内置DTW距离的高斯混合模型是根据语音音频数据库、DTW算法和高斯混合模型构建的。应用本发明,以达到识别效率高、识别精度高的目的。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种基于DTW和GMM的短词句语音识别方法及系统。
背景技术
现有的高斯混合模型GMM无法使用DTW距离,因而无法对长短不一的离散矢量集进行高斯混合模型GMM建模,所以高斯混合模型GMM无法应用到短词句语音识别中。目前,基本上采用基于DTW算法的kNN方法,但是此方法识别速度慢,计算消耗较大。
发明内容
本发明的目的是提供一种基于DTW和GMM的短词句语音识别方法及系统,以达到识别效率高、识别精度高的目的。
为实现上述目的,本发明提供了如下方案:
一种基于DTW和GMM的短词句语音识别方法,包括:
获取当前阶段采集的语音音频数据;
根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果;
其中,所述语音音频数据库包括n个短词句,所述内置DTW距离的高斯混合模型包括K支高斯模型,且K=n;所述内置DTW距离的高斯混合模型是根据所述语音音频数据库、DTW算法和高斯混合模型构建的。
可选的,所述根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果,具体包括:
根据所述当前阶段采集的语音音频数据和内置DTW距离的高斯混合模型,计算所述当前阶段采集的语音音频数据属于第k支高斯模型的概率值,进而得到K个概率值;其中,k=1,2,...,K;
确定K个所述概率值中的最大概率值,并将所述最大概率值对应的高斯模型确定为选中高斯模型;
将所述选中高斯模型对应的短词句确定为所述当前阶段采集的语音音频数据的识别结果;其中,一个所述高斯模型对应一个所述短词句,且不同的所述高斯模型对应不同的所述短词句。
可选的,在确定所述内置DTW距离的高斯混合模型的构建过程之前,还包括:构建内存储有不同长度短词句的语音音频数据库;所述语音音频数据库包括N个语音音频数据,且每个所述短词句对应m个语音音频数据,N=n*m。
可选的,所述内置DTW距离的高斯混合模型的构建过程为:
步骤一:对高斯混合模型中的参数αk,uk,σk进行初始化;其中,αk表示高斯混合模型中第k支高斯模型的权重系数,uk表示高斯混合模型中第k支高斯模型的中心矢量,σk表示高斯混合模型中第k支高斯模型的方差;
步骤二:根据公式计算语音音频数据xj属于第k支高斯模型的概率γjk;其中,dDTW(xj,uk)表示语音音频数据xj与参数uk间的DTW距离;j=1,2,...,N;
步骤三:根据所述概率γjk更新参数αk,uk,σk;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁夏理工学院,未经宁夏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591145.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无人机的多余度仲裁切换方法、系统及计算机设备
- 下一篇:一种煤炭采样装置