[发明专利]语音识别方法、语音识别装置和电子设备在审
申请号: | 202111077163.6 | 申请日: | 2021-09-13 |
公开(公告)号: | CN114333785A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 武燕 | 申请(专利权)人: | 中科聚信信息技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/10;G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 北京彩和律师事务所 11688 | 代理人: | 刘磊;闫桑田 |
地址: | 100081 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 | ||
1.一种语音识别方法,其特征在于,包括:
训练阶段,包括:
获取训练数据,所述训练数据包括连续语音和对应于所述连续语音的真实语音识别结果;
对所述训练数据中的连续语音进行语音分割,以获得由多个语音段组成的语音段序列;
提取所述语音段序列中每个语音段的语音特征;
将所述语音段序列中每个语音段的语音特征输入基于支持向量机的分类器以获得对应于每个所述语音段的分类标签,从而得到带有分类标签的语音段序列;
将所述带有分类标签的语音段序列输入隐马尔可夫模型以获得语音识别结果;
计算所述语音识别结果和所述真实语音识别结果之间的损失函数值;以及
基于所述损失函数值,对所述隐马尔可夫模型和所述基于支持向量机的分类器进行训练;以及
识别阶段,包括:
获取待识别的连续语音数据;
对所述待识别的连续语音数据进行语音分割,以获得由多个待识别语音段组成的待识别语音段序列;
提取所述待识别语音段序列中每个语音段的语音特征;
将所述待识别语音段序列中每个待识别语音段的语音特征输入基于支持向量机的分类器以获得对应于每个所述待识别语音段的分类标签,从而得到带有分类标签的待识别语音段序列;以及
将所述带有分类标签的待识别语音段序列输入隐马尔可夫模型以获得语音识别结果。
2.根据权利要求1所述的语音识别方法,其中,对所述训练数据中的连续语音进行语音分割,以获得由多个语音段组成的语音段序列,包括:
对所述训练数据中的连续语音进行基于音节序列的语音分割,以获得由多个语音段组成的语音段序列。
3.根据权利要求2所述的语音识别方法,其中,提取所述语音段序列中每个语音段的语音特征,包括:
对各个所述语音段进行预处理;
对预处理之后的所述语音段进行傅里叶变换;
对经傅里叶变换后的所述语音段进行梅尔滤波;以及
对经梅尔滤波后的所述语音段进行倒谱分析以提取出所述语音段的梅尔频率倒谱系数作为所述语音段的语音特征。
4.根据权利要求3所述的语音识别方法,其中,所述基于支持向量机的分类器的核函数选自如下之一:线性核函数、多项式核函数、径向基核函数和Sigmoid核函数。
5.根据权利要求4所述的语音识别方法,其中,所述基于支持向量机的分类器的核函数为径向基核函数。
6.根据权利要求5所述的语音识别方法,其中,计算所述语音识别结果和所述真实语音识别结果之间的损失函数值,包括:
计算所述语音识别结果和所述真实语音识别结果之间的交叉熵损失函数值作为所述损失函数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科聚信信息技术(北京)有限公司,未经中科聚信信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111077163.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测定装置、判定方法以及记录介质
- 下一篇:超声图像显示装置及其控制程序