[发明专利]一种语音识别方法、装置和电子设备有效
| 申请号: | 202011294806.8 | 申请日: | 2020-11-18 |
| 公开(公告)号: | CN112420050B | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 易中华 | 申请(专利权)人: | 北京帝派智能科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/14;G10L15/16 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 方法 装置 电子设备 | ||
本申请实施例提供了一种语音识别方法、装置和电子设备,能够使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。本申请实施例的技术方案,通过数据生成器模型增大了声学表征的规模,使得训练得到的语音识别系统可以应用于大词汇量连续语音识别的场景中,并且具有较高的准确性。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语音识别方法、装置和电子设备。
背景技术
语音识别技术(speech recognition),也被称为自动语音识别(automaticspeech recognition,ASR)、电脑语音识别(computer speech recognition)或是语音转文本识别(speech to text,STT),其目标是计算机自动将人类的语音内容转换为相应的文字。语音识别技术可以应用在包括语音拨号、语音导航、室内设备控制、语音文档检索、听写数据录入等众多领域。如果将语音识别技术与其他自然语言处理技术(如机器翻译及语音合成技术)相结合,则可以构建出更加复杂的应用,例如语音到语音的翻译等。
目前的语音识别系统,通常采用声学模型和语言模型完全分离的方法进行训练,并以一种松耦合的方式进行语音识别应用,声学模型中仅蕴含最基础的语言模型信息,而语言模型仅蕴含了语言相关的信息却与声学数据无关,即语言模型仅仅表征了文本层面的文字搭配关系。这种方案的缺陷在于:声学模型和语言模型是单独训练并且独立优化的,因此无法对管道方案进行端到端的整体优化,也就无法得出全局最优识别结果,因此管道方案的语音识别准确性难以提升。
为克服上述缺陷,现有技术还通过了一种将语音识别系统的所有组件作为单一的端到端网络模型的方案。然而,这种端到端网络模型的方案采用音频-文本的样本训练,而目前音频-文本的样本的数量规模通常只能满足声学模型的训练要求,无法满足语言模型的训练要求,这就导致该模型无法在大词汇量连续语音识别应用中有广泛适用性,仅能用于特定用途的小型语音识别系统中,并且准确率和扩展性不如传统管道方案如声学模型加N-Gram语言模型。
发明内容
本申请实施例提供了一种语音识别方法、装置和电子设备,以解决提高语音识别系统的识别准确率。
第一方面,本申请实施例提供了一种语音识别方法,该方法包括:使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
在一种可选择的实现方式中,使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,包括:生成第一文本数据对应的第一发音符号序列;以第一发音符号序列作为数据生成器模型的输入,以第一声学表征作为数据生成器模型的输出,并且使用声学模型的输出作为数据生成器模型的监督信号,训练数据生成器模型。
在一种可选择的实现方式中,使用数据生成器模型生成第二文本数据对应的第二声学表征,包括:生成第二文本数据对应的第二发音符号序列;将第二发音符号序列输入到数据生成器模型,以生成第二声学表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京帝派智能科技有限公司,未经北京帝派智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011294806.8/2.html,转载请声明来源钻瓜专利网。





