[发明专利]自适应语音识别方法、系统、设备及存储介质在审
| 申请号: | 202111482304.2 | 申请日: | 2021-12-06 |
| 公开(公告)号: | CN114141243A | 公开(公告)日: | 2022-03-04 |
| 发明(设计)人: | 郭武;丁枫林 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/183;G10L15/06 |
| 代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 语音 识别 方法 系统 设备 存储 介质 | ||
本发明公开了一种自适应语音识别方法、系统、设备及存储介质,结合CTC端到端声学模型自身的特点,提出一种新的无辅助网络的语音识别模型的自适应方法,通过在训练损失函数中添加正则项来动态训练自适应模型,因此,不需要任何额外的自适应数据来微调模型参数。这种方式极大简化了说话人自适应的流程,同时没有增加任何的模型复杂度,可以提高端到端语音识别系统的识别准确率。
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种自适应语音识别方法、系统、设备及存储介质。
背景技术
近年来,随着神经网络在语音识别领域中的广泛应用,语音识别系统的性能得到了显著的改善。目前主流的语音识别系统主要有两种,一种是基于HMM(隐马尔可夫)的语音识别系统(Graves A,Fernández S,Gomez F,et al.Connectionist temporalclassification:labelling unsegmented sequence data with recurrent neuralnetworks[C]//Proceedings of the 23rd international conference on Machinelearning.ACM,2006:369-376.),另一种则是端到端语音识别系统(Maas A,Xie Z,Jurafsky D,et al.Lexicon-free conversational speech recognition with neuralnetworks[C]//Proceedings of the 2015Conference of the North American Chapterof the Association for Computational Linguistics:Human LanguageTechnologies.2015:345-354.)。相比于基于HMM的语音识别系统,端到端语音识别系统结构更加简单,通过神经网络直接把输入语音特征序列转化成文字序列,不需要HMM系统的一套发音词典、决策树、字级别标注对齐信息,由于其实现简单且性能优异,因此成为了当前研究的热点。
端到端语音识别的首次实现是谷歌的Alex Graves和多伦多大学的NavdeepJaitly将链接时序分类(ConnectionistTemporal Classification,CTC)准则引入到语音识别系统中(GRAVES A,JAITLY N.Towards end-to-end speech recognition withrecurrent neural networks[C]//International conference on machinelearning.PMLR,2014:1764-1772.)。CTC本质上是一个损失函数,但它在计算损失时解决了硬对齐问题,最初被提出用来解决序列到序列的预测任务(GRAVES A, S,GOMEZ F,et al.Connectionist temporal classification:labelling unsegmentedsequence data with recurrent neural networks[C]//Proceedings of the 23rdinternational conference on Machine learning.2006:369-376.)。语音识别作为一个典型的语音序列到文本序列的预测任务,CTC准则的引入成功实现了直接由输入语音映射到文本标签的过程。在结合RNN或卷积神经网络(Convolutional Neural Network,CNN)对时序信息进行建模的情况下,CTC准则被广泛的应用到语音识别系统中(LI J,YE G,DAS A,et al.Advancing acoustic-to-word CTC model[C]//2018IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018:5794-5798.)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111482304.2/2.html,转载请声明来源钻瓜专利网。





