[发明专利]一种语音识别方法和语音识别系统有效
申请号: | 201710015475.1 | 申请日: | 2017-01-10 |
公开(公告)号: | CN107093422B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 陈桂林 | 申请(专利权)人: | 上海优同科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/183;G10L15/22;G10L15/30 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 201203 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 系统 | ||
1.一种语音识别方法,其特征在于,所述语音识别方法包括以下步骤:
对获取的语音信号进行预处理;
从所述语音信号中提取特征参数;
采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别;
对自动识别得到的结果进行后处理;
声学模型的建立包括特征选取步骤,所述特征选取步骤包括:
将连续若干帧的基音组合形成一特征向量;
对所述特征向量进行归整化处理;
将归整化处理后的特征向量作为长短时记忆模型结构的输入参数;
在对所述特征向量进行归整化处理的过程中,所述归整化处理在音节层面进行,具体过程包括:
根据同一个音节内部的基音曲线,算其平均值,各帧基音对平均值取预定比值;所述预定比值采用公式:
其中,Fk表示第k帧的基音,Fmean表示音节的平均基音,其中,表示第k帧基音相对于平均基音的比值,k为自然数;
声学模型的建立还包括以下步骤:
基于长短时记忆模型结构分别建立相互独立的谱参数声学模型和基音声学模型;
在解码识别过程中,先利用谱参数声学模型进行解码识别,再利用基音声学模型进行解码识别;
在利用谱参数声学模型进行解码识别中,判断谱参数声学模型的识别结果中是否包括相同的拼音,若不包含相同的拼音,则解码识别过程结束,若包含相同的拼音,则利用基音声学模型进行解码识别;
在基音声学模型解码识别过程中,对拼音相同、但调型不同的词序列进行重新打分以选取更为精准的词序列。
2.一种语音识别系统,其特征在于,应用有权利要求1所述的语音识别方法,且还包括:
预处理单元,用于对语音信号进行预处理;
提取单元,用于从所述语音信号中提取特征参数;
识别器,用于采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别;
后处理单元,用于对自动识别得到的结果进行后处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优同科技有限公司,未经上海优同科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710015475.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食品搬运用机器人
- 下一篇:一种可快速精确转动的机械手