[发明专利]语音识别方法及装置、设备、计算机可读存储介质在审
| 申请号: | 202110150327.7 | 申请日: | 2021-02-02 |
| 公开(公告)号: | CN113012683A | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 陈文明;冯兵兵;邓高锋;张世明 | 申请(专利权)人: | 虫洞创新平台(深圳)有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
| 代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 张小容 |
| 地址: | 518000 广东省深圳市光明区凤凰*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明涉及语音识别技术领域,公开了一种语音识别方法及装置、设备、计算机可读存储介质。本发明通过若监测接收到语音信息,则对语音信息进行声学特征提取,得到第一声学特征信息,进而利用目标解码器对第一声学特征信息进行解码识别,得到解码识别结果,其中目标解码器为根据规范化处理后的发音词典,规范化处理后的文本语料训练得到的语言模型,以及声学模型构造得到,再输出解码识别结果,以实现语音识别;解决了相关技术中语音识别的准确率差的问题。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置、设备、计算机可读存储介质。
背景技术
随着计算机技术和信号处理技术的快速发展,健壮性语音识别已达到真正意义上的应用,能够实现自由的人机交互;但是,目前的语音识别准确率较低,例如在识别专有名词复合词如Editor-in-Chief、缩略词如UFO、人名如Jessie、地名如Beijing等的过程中识别准确率都较低,由此大大降低了用户的使用体验。
因此,如何提升语音识别的准确率是亟待解决的问题。
发明内容
本发明的主要目的在于提供语音识别方法及装置、设备、计算机可读存储介质,旨在提升语音识别的准确率。
为实现上述目的,本发明提供一种语音识别方法,所述语音识别方法包括以下步骤:
若监测接收到语音信息,则对所述语音信息进行声学特征提取,得到第一声学特征信息;
利用目标解码器对所述第一声学特征信息进行解码识别,得到解码识别结果;其中,所述目标解码器为根据规范化处理后的发音词典,规范化处理后的文本语料训练得到的语言模型,以及声学模型构造得到;
输出所述解码识别结果,以实现语音识别。
可选的,所述利用目标解码器对所述第一声学特征信息进行解码,得到解码识别结果的步骤之前,所述语音识别方法还包括:
对发音词典进行规范化处理,得到规范化发音词典;
对文本语料进行规范化处理,得到规范化文本语料,并对所述规范化文本语料进行训练,得到语言模型;
根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器。
可选的,所述根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器的步骤之前,还包括:
对语音语料进行声学特征提取,得到第二声学特征信息;
对所述第二声学特征信息进行训练,得到声学模型。
可选的,所述根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器的步骤之前,还包括:
获取声学模型和所述语言模型;
根据所述声学模型中的音素和所述语言模型中的中文词,建立音素与中文词的映射关系,以及根据所述声学模型中的音素和所述语言模型中的单词,建立音素与单词的映射关系;
根据所述音素与中文词的映射关系以及音素与单词的映射关系,得到发音词典。
可选的,所述对发音词典进行规范化处理,得到规范化发音词典的步骤,包括:
对所述发音词典进行训练得到词转音素模型;
根据所述词转音素模型,生成补充发音词典;其中,所述补充发音词典中包含的音素不在所述发音词典中,所述补充发音词典中包含的音素对应的中文词和音素对应的单词在所述语言模型中;
根据所述补充发音词典和所述发音词典,得到组合发音词典;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于虫洞创新平台(深圳)有限公司,未经虫洞创新平台(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150327.7/2.html,转载请声明来源钻瓜专利网。





