[发明专利]一种基于人工智能的语音识别方法和装置在审
| 申请号: | 202210333066.7 | 申请日: | 2019-09-24 |
| 公开(公告)号: | CN114627863A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 苏丹;贺利强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/08;G10L15/02;G10L15/26 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 林志鹏 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 人工智能 语音 识别 方法 装置 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信号的声学特征;
根据所述声学特征中的后验概率,确定概率参数满足预设条件的目标声学建模单元,所述后验概率中的概率参数用于标识音频帧属于不同声学建模单元的概率;
根据所述目标声学建模单元的概率参数,确定所述声学建模描述特征,所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度;
根据所述声学建模描述特征,预测语音识别解码器用于所述待识别语音信号的解码参数;
通过所述语音识别解码器,采用所述解码参数对所述待识别语音信号进行识别。
2.根据权利要求1所述的方法,其特征在于,所述声学建模单元中设置有用于吸收非尖峰之外的语音帧的评估声学建模单元,任一音频帧的后验概率中所述评估声学建模单元的概率参数为目标值。
3.根据权利要求2所述的方法,其特征在于,所述预设条件为最大概率参数,针对所述待识别语音信号中的目标音频帧,所述根据所述声学特征中的后验概率,确定概率参数高于预设条件的目标声学建模单元,包括:
将所述目标音频帧的后验概率中的概率参数最大的声学建模单元作为所述目标声学建模单元;
所述根据所述目标声学建模单元的概率参数,确定所述声学建模描述特征,包括:
若所述目标声学建模单元为所述评估声学建模单元,确定所述目标音频帧为冗余信息;
若所述目标声学建模单元不是所述评估声学建模单元,将所述目标声学建模单元的概率参数保留在所述声学建模描述特征中。
4.根据权利要求1所述的方法,其特征在于,所述音频帧对应的后验概率构成的后验概率矩阵为二维特征,所述音频帧对应的声学建模描述特征为一维特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述声学建模描述特征,预测语音识别解码器用于所述待识别语音信号的解码参数,包括:
根据声学建模描述特征,通过神经网络模型预测所述语音识别解码器用于所述待识别语音信号的解码参数;
所述神经网络模型通过如下方式训练得到:
获取语音训练样本,所述语音训练样本包括样本语音信号和对应的文本内容;
对所述神经网络模型进行多轮训练;
其中,针对第i轮训练,根据所述语音识别解码器在第i-1轮对所述样本语音信号的识别结果,确定第i轮的奖励参数;所述语音识别解码器在第i-1轮中采用所述神经网络模型第i-1轮预测的解码参数;
根据所述样本语音信号对应的声学建模描述特征、第i-1轮所预测的解码参数和第i轮的奖励参数,通过所述神经网络模型预测第i轮的解码参数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语音识别解码器在第i-1轮对所述样本语音信号的识别结果,确定第i轮的奖励参数,包括:
根据第i-1轮的识别结果的准确性和/或得到第i-1轮的识别结果的识别速度,确定第i轮的奖励参数;第i-1轮的识别结果的准确性是根据第i-1轮的识别结果与所述文本内容确定的。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述待识别语音信号为连续语音对应的语音信号,所述声学建模描述特征为固定长度的;或者,
所述待识别语音信号为对所述连续语音对应的语音信号切分得到的语音片段,所述声学建模描述特征为非固定长度的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210333066.7/1.html,转载请声明来源钻瓜专利网。





