[发明专利]音素识别方法、装置、电子设备和存储介质在审
| 申请号: | 202210855299.3 | 申请日: | 2022-07-19 |
| 公开(公告)号: | CN115359783A | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 孙涛;申凯;万根顺;潘嘉;刘聪;胡国平;刘庆峰;胡郁 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L25/54 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郭亮 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音素 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种音素识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。本发明提供的音素识别方法、装置、电子设备和存储介质,不仅减小了音素识别模型的规模,而且音素识别模型能够准确对不同语种的音素进行区分。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种音素识别方法、装置、电子设备和存储介质。
背景技术
在语音识别领域中,音素作为语音中的最小的单位,若要提高语音识别的准确度,需要提高语音中每个音素的识别准确度。
在实际应用场景中,语音对应有不同的语种,为了准确对不同语种的语音进行识别,目前多针对每种语种训练一个子模型,并基于这些子模型构建得到音素识别模型,以利用音素识别模型中的各子模型分别对各语种的语音进行音素识别,进而根据音素识别结果得到对应的语音识别结果。然而,随着语种种类的增加,子模型的个数也会增加,导致音素识别模型的规模也会增大,进而影响音素识别模型在本地芯片上的部署。
发明内容
本发明提供一种音素识别方法、装置、电子设备和存储介质,用以解决现有技术中音素识别模型规模较大的缺陷。
本发明提供一种音素识别方法,包括:
确定待识别语音;
将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
根据本发明提供的一种音素识别方法,所述第一识别模型的确定步骤包括:
基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;
从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。
根据本发明提供的一种音素识别方法,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;
所述第二识别模型基于如下步骤训练得到:
将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;
将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;
基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。
根据本发明提供的一种音素识别方法,所述得到所述第二识别模型的特征提取层输出的第一音素隐层特征,之后还包括:
基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;
基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210855299.3/2.html,转载请声明来源钻瓜专利网。





