[发明专利]一种建立语音识别模型的方法、语音识别方法及系统有效
申请号: | 201811196304.4 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109243428B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 王知践;钱胜 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/02;G10L15/16;G10L15/197 |
代理公司: | 11412 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人: | 袁媛<国际申请>=<国际公布>=<进入国 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 音节 读取 解码网络 语言模型 音元 语法 网络 映射关系表 车载环境 语法文件 扩展型 嵌入式 识别器 最小化 声学 构建 解析 合并 灵活 应用 | ||
本发明公开了一种建立语音识别模型的方法、语音识别方法及系统,其中所述建立语音识别模型的方法包括读取并解析每个语法文件,构建每个语法的网络;读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;对各个音节网络进行合并最小化操作,形成音元解码网络;利用所述音元解码网络和语言模型,形成语音识别模型。应用本发明所述方案,扩展型强,支持N‑Gram语言模型,支持类模型,使用灵活,适用于车载环境中的嵌入式识别器。
【技术领域】
本发明涉及语音处理技术领域,特别涉及一种建立语音识别模型的方法、语音识别方法及系统。
【背景技术】
虽然网络越来越普及,但是还是有很多情况下是没有网络或者网络比较弱,这时候使用云端的语音识别服务难以实现,而且对于一些不复杂的语音识别指令或者短query放到本地的嵌入式识别器中更方便,响应也会更快,使用起来也会更方便。
现有的本地语音识别技术方案中,语音都是基于用户给定的一个词表和语法格式进行构建,单一且扩展性低,不支持多grammar构建,不支持类模型等,使用起来不够灵活。
【发明内容】
本申请的多个方面提供了一种建立语音识别模型的方法、语音识别方法及系统,用于提供一种灵活的语音识别技术方案。
本申请的一方面,提供一种建立语音识别模型的方法,包括:
读取并解析每个语法文件,构建每个语法的网络;
读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
对各个音节网络进行合并最小化操作,形成音元解码网络;
利用所述音元解码网络和语言模型,形成语音识别模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述读取并解析每个语法文件包括:
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声学的音节映射关系表为预先训练的DNN模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音节为每个字的读音。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对各个音节网络进行合并最小化操作包括:
采用计算机图论方法对所述各个音节网络的组合进行优化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语言模型为N-Gram语言模型。
本发明的另一方面,提供一种语音识别方法,包括:
获取目标音频数据;
提取所述目标音频数据中的目标滤波器组特征;
将所述目标音频数据中的目标滤波器组特征作为所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将所述目标音频数据中的目标滤波器组特征作为所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据,包括:
将所述目标音频数据中的目标滤波器组特征作为训练后的DNN模型的输入数据,获取第一目标滤波器组特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标滤波器组特征的目标音素状态上的后验概率特征以及N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811196304.4/2.html,转载请声明来源钻瓜专利网。