[发明专利]基于命令词的语音识别模型压缩方法有效

申请号：	202210696243.8	申请日：	2022-06-20
公开（公告）号：	CN114783427B	公开（公告）日：	2022-08-26
发明（设计）人：	温登峰;伍元聪	申请（专利权）人：	成都启英泰伦科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L15/16;G06N3/08;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于命令语音识别模型压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于命令词的语音识别模型压缩方法，包括如下步骤：S1：进行初始训练，得到原始语音识别模型MD1，并得到相应的音素分类类别M；S2：根据需要训练的命令词A得到A对应的音素类别k，将原始语音识别模型MD1中的剩余音素聚类为1类；S3：对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2；所述微调训练具体为：保留原始语音识别模型MD1中除输出层外的其余层参数，并更新输出层的节点数为k+1,进行模型迁移训练，所有层的模型参数进行梯度更新。本发明通过降低参数量,可在不显著影响识别效果的情况下显著减小语音识别模型的占用空间。

技术领域

本发明属于人工智能领域，涉及到人工智能领域语音识别技术，具体涉及一种基于命令词的语音识别模型压缩方法。

背景技术

随着计算设备性能的提升，各种基于深度学习技术的应用也随之普及。语音作为人机交互的接口，在智能家居环境的应用需求也日益增长。因此，设备端测的语音识别芯片应时而生。但由于端侧芯片的算力和存储空间有限，如何在不降低语音识别效果的基础上降低算力和存储空间成为端侧语音推广的一大难题。

解决这个难题的一种方法是在设备端按照智能家居产品的使用特性制定常用的命令词，在实际使用时只需要识别这些词即可。传统端侧命令词识别过程是使用大量语料训练一个连续语音识别模型，然后用这个模型去识别某一产品对应的命令词。

现有技术存在的问题是语音识别模型参数量过大，从而导致端侧设备存在存储和算力的瓶颈；一旦命令词条数过多，会导致端侧语音芯片无法应用到该产品。因此传统的方法很难得到有效推广。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种基于命令词的语音识别模型压缩方法。

本发明所述基于命令词的语音识别模型压缩方法，包括如下步骤：

S1：进行初始训练，得到原始语音识别模型MD1，并得到相应的音素分类类别M；

S2：根据需要训练的命令词A得到A对应的音素类别k，然后在原始语音识别模型MD1中选取所述音素类别k，并将原始语音识别模型MD1中包括噪声音素的剩余音素聚类为1类；

聚类后，原始语音识别模型的音素类别为k+1；

S3：根据命令词A在初始训练使用的语料中筛选与命令词A对应的训练语料，利用筛选后的训练语料对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2；

所述微调训练具体为：保留原始语音识别模型MD1中除输出层外的其余层参数，并更新输出层的节点数为k+1,进行模型迁移训练，所有层的模型参数进行梯度更新。

优选的，S3步骤中,进行模型迁移训练时降低学习率。

优选的，还包括对第二模型MD2的稀疏化剪枝操作，具体为：

S4：筛选出第二模型MD2上权重参数小于设定的稀疏化阈值的神经元，将这些神经元的权重参数置为0；得到第三模型MD3；

S5：对S4步骤得到的第三模型MD3进行微调训练，具体为禁止权重为0的参数进行梯度更新，对不为0的权重参数进行梯度更新,进而得到第四模型MD4。

优选的，还包括对第四模型MD4的权重参数聚类量化，具体为：

S6：对第四模型MD4进行权重参数聚类量化, 得到第五模型MD5；

S7：采用步骤S3中筛选后的命令词语料对S6步骤得到的第五模型MD5进行微调训练，具体为禁止所有权重参数的梯度更新，只进行偏置参数的梯度更新。得到第六模型MD6；

S8：对第六模型MD6进行霍夫曼存储压缩，得到霍夫曼压缩矩阵。

优选的，所述权重参数聚类量化采用k均值聚类算法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司，未经成都启英泰伦科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210696243.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种尖晶石球罩等静压成型方法
下一篇：一种针对随机纹理场景的图像拼接方法及其应用

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于命令词的语音识别模型压缩方法有效

专利文献下载