[发明专利]基于DTW和GMM的短词句语音识别方法及系统有效

申请号：	202110591145.3	申请日：	2021-05-28
公开（公告）号：	CN113112999B	公开（公告）日：	2022-07-12
发明（设计）人：	陆成刚;王庆月;谢涛	申请（专利权）人：	宁夏理工学院
主分类号：	G10L15/12	分类号：	G10L15/12;G10L15/14;G10L15/22
代理公司：	北京高沃律师事务所 11569	代理人：	王爱涛
地址：	753000 宁夏回族自***	国省代码：	宁夏;64
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 dtw gmm 词句语音识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DTW和GMM的短词句语音识别方法，其特征在于，包括：

获取当前阶段采集的语音音频数据；

根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库，确定所述当前阶段采集的语音音频数据对应的识别结果；

其中，所述语音音频数据库包括n个短词句，所述内置DTW距离的高斯混合模型包括K支高斯模型，且K＝n；所述内置DTW距离的高斯混合模型是根据所述语音音频数据库、DTW算法和高斯混合模型构建的；

所述内置DTW距离的高斯混合模型的构建过程为：

步骤一：对高斯混合模型中的参数α_k,u_k,σ_k进行初始化；其中，α_k表示高斯混合模型中第k支高斯模型的权重系数，u_k表示高斯混合模型中第k支高斯模型的中心矢量，σ_k表示高斯混合模型中第k支高斯模型的方差；

步骤二：根据公式计算语音音频数据x_j属于第k支高斯模型的概率γ_jk；其中，d_DTW(x_j,u_k)表示语音音频数据x_j与参数u_k间的DTW距离；j＝1,2,...,N；

步骤三：根据所述概率γ_jk更新参数α_k,u_k,σ_k；

步骤四：重复步骤二和步骤三，并当步骤三输出的更新后的参数α_k,u_k,σ_k收敛时，停止参数更新，进而得到内置DTW距离的高斯混合模型；

所述根据所述当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库，确定所述当前阶段采集的语音音频数据对应的识别结果，具体包括：

根据所述当前阶段采集的语音音频数据和内置DTW距离的高斯混合模型，计算所述当前阶段采集的语音音频数据属于第k支高斯模型的概率值，进而得到K个概率值；其中，k＝1,2,...,K；

确定K个所述概率值中的最大概率值，并将所述最大概率值对应的高斯模型确定为选中高斯模型；

将所述选中高斯模型对应的短词句确定为所述当前阶段采集的语音音频数据的识别结果；其中，一个所述高斯模型对应一个所述短词句，且不同的所述高斯模型对应不同的所述短词句。

2.根据权利要求1所述的一种基于DTW和GMM的短词句语音识别方法，其特征在于，在确定所述内置DTW距离的高斯混合模型的构建过程之前，还包括：构建内存储有不同长度短词句的语音音频数据库；所述语音音频数据库包括N个语音音频数据，且每个所述短词句对应m个语音音频数据，N＝n*m。

3.根据权利要求1所述的一种基于DTW和GMM的短词句语音识别方法，其特征在于，所述根据所述概率γ_jk更新参数α_k,u_k,σ_k，具体包括：

确定更新后的参数u_k；

根据公式确定更新后的参数σ_k；其中，公式中的u_k为更新后的参数u_k；

根据公式确定更新后的参数α_k。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宁夏理工学院，未经宁夏理工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110591145.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载