[发明专利]语音识别方法及装置、设备、计算机可读存储介质在审
| 申请号: | 202110150327.7 | 申请日: | 2021-02-02 |
| 公开(公告)号: | CN113012683A | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 陈文明;冯兵兵;邓高锋;张世明 | 申请(专利权)人: | 虫洞创新平台(深圳)有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
| 代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 张小容 |
| 地址: | 518000 广东省深圳市光明区凤凰*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种语音识别方法,其特征在于,所述语音识别方法包括以下步骤:
若监测接收到语音信息,则对所述语音信息进行声学特征提取,得到第一声学特征信息;
利用目标解码器对所述第一声学特征信息进行解码识别,得到解码识别结果;其中,所述目标解码器为根据规范化处理后的发音词典,规范化处理后的文本语料训练得到的语言模型,以及声学模型构造得到;
输出所述解码识别结果,以实现语音识别。
2.如权利要求1所述的语音识别方法,其特征在于,所述利用目标解码器对所述第一声学特征信息进行解码,得到解码识别结果的步骤之前,所述语音识别方法还包括:
对发音词典进行规范化处理,得到规范化发音词典;
对文本语料进行规范化处理,得到规范化文本语料,并对所述规范化文本语料进行训练,得到语言模型;
根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器。
3.如权利要求2所述的语音识别方法,其特征在于,所述根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器的步骤之前,还包括:
对语音语料进行声学特征提取,得到第二声学特征信息;
对所述第二声学特征信息进行训练,得到声学模型。
4.如权利要求2所述的语音识别方法,其特征在于,所述根据所述规范化处理后的发音词典,所述语言模型,以及声学模型构造解码器,以得到目标解码器的步骤之前,还包括:
获取声学模型和所述语言模型;
根据所述声学模型中的音素和所述语言模型中的中文词,建立音素与中文词的映射关系,以及根据所述声学模型中的音素和所述语言模型中的单词,建立音素与单词的映射关系;
根据所述音素与中文词的映射关系以及音素与单词的映射关系,得到发音词典。
5.如权利要求2-4中任一项所述的语音识别方法,其特征在于,所述对发音词典进行规范化处理,得到规范化发音词典的步骤,包括:
对所述发音词典进行训练得到词转音素模型;
根据所述词转音素模型,生成补充发音词典;其中,所述补充发音词典中包含的音素不在所述发音词典中,所述补充发音词典中包含的音素对应的中文词和音素对应的单词在所述语言模型中;
根据所述补充发音词典和所述发音词典,得到组合发音词典;
根据所述组合发音词典,得到规范化发音词典。
6.如权利要求5所述的语音识别方法,其特征在于,所述根据所述组合发音词典,得到规范化发音词典的步骤,包括:
对所述组合发音词典中包含的音素统一大小写;
根据预设专有名词大小写规则,对所述组合发音词典中包含的音素进行大小写处理;
将静音词和/或噪声词和/或集外词对应的音素,添加至所述组合发音词典中,得到规范化发音词典。
7.如权利要求2-4中任一项所述的语音识别方法,其特征在于,所述对文本语料进行规范化处理,得到规范化文本语料的步骤,包括;
从多个领域中采集文本语料;
对所述文本语料进行规范化处理,得到规范化文本语料;
所述对所述规范化文本语料进行训练,得到语言模型的步骤,包括:
从所述规范化文本语料中获取使用频率高于预设阈值的中文词和/或单词;
根据所述使用频率高于预设阈值的中文词和/或单词,生成构造词汇表;
对所述规范化文本语料和所述构造词汇表进行训练,得到语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于虫洞创新平台(深圳)有限公司,未经虫洞创新平台(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150327.7/1.html,转载请声明来源钻瓜专利网。





