[发明专利]语音识别方法及装置、存储介质及电子设备在审
| 申请号: | 202110062350.0 | 申请日: | 2021-01-18 |
| 公开(公告)号: | CN113782005A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 雪巍;蔡玉玉;吴俊仪;彭毅;范璐;杨帆;丁国宏;何晓冬 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 存储 介质 电子设备 | ||
1.一种语音识别方法,其特征在于,包括:
获取样本语音信号,对所述样本语音信号进行解码,获得解码结果,从所述解码结果中提取第一特征,所述第一特征包含所述样本语音信号的前置字信息;
从所述样本语音信号中抽取目标语音片段,获取所述目标语音片段的对数幅度谱;根据所述对数幅度谱确定第二特征,所述第二特征为所述样本语音信号的二维时频域特征;
将所述第一特征和所述第二特征结合,得到第三特征;
使用所述第三特征对未经训练的分类器进行训练,获得经训练的分类器;
获取待识别语音信号的待识别第三特征,使用所述经训练的分类器对所述待识别第三特征进行分类,以确定所述待识别第三特征中是否含有所述前置字。
2.根据权利要求1所述的方法,其特征在于,对所述样本语音信号进行解码,获得解码结果包括:
使用经训练的声学模型和经训练的语言模型对所述样本语音信号进行解码,抽取解码候选结果中排名前三的候选结果作为所述解码结果。
3.根据权利要求1或2所述的方法,其特征在于,从所述解码结果中提取第一特征还包括:
获取所述解码结果的声学模型得分和语言模型得分,对所述声学模型得分和所述语言模型得分进行归一化,得到归一化声学模型得分和归一化语言模型得分,作为所述第一特征。
4.根据权利要求3所述的方法,其特征在于,对所述声学模型得分和所述语言模型得分进行归一化,得到归一化声学模型得分和归一化语言模型得分包括:
将所述声学模型得分与最优解码结果的声学模型得分相除,获得所述归一化声学模型得分,所述最优解码结果为解码候选结果中排名第一的候选结果;
将所述语言模型得分与所述最优解码结果的语言模型得分相除,获得所述归一化语言模型得分。
5.根据权利要求1所述的方法,其特征在于,还包括:
在所述解码结果包含前置字时,所述前置字信息为1;
在所述解码结果不包含所述前置字时,所述前置字信息为0。
6.根据权利要求5所述的方法,其特征在于,还包括:
所述前置字为不、没中的至少一个。
7.根据权利要求1所述的方法,其特征在于,从所述解码结果中提取第一特征之前,所述方法还包括:
确定包含前置字的敏感词集合,当所述解码结果中包含所述敏感词集合中的任一元素时,从所述解码结果中提取所述第一特征。
8.根据权利要求7所述的方法,其特征在于,从所述样本语音信号中抽取语音片段包括:
根据所述解码结果的时间信息,确定所述元素对应的时间起始点和时间终止点;
从所述样本语音信号中抽取所述时间起始点和所述时间终止点之间的语音片段作为所述目标语音片段。
9.根据权利要求1或8所述的方法,其特征在于,获取所述目标语音片段的对数幅度谱包括:
将所述目标语音片段划分成预设个数的子片段,对每个所述子片段进行预设点数的短时傅里叶变换,获得语谱图;
根据所述语谱图获取所述对数幅度谱。
10.根据权利要求9所述的方法,其特征在于,根据所述对数幅度谱确定第二特征包括:
将所述对数幅度谱归一化到0到1区间,得到归一化对数幅度谱;
从所述归一化对数幅度谱中抽取所述第二特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110062350.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速对五种疟原虫检测并分型的方法
- 下一篇:一种具有全景拍摄功能的无人机





