[发明专利]音素识别方法、装置、电子设备和存储介质在审

申请号：	202210855299.3	申请日：	2022-07-19
公开（公告）号：	CN115359783A	公开（公告）日：	2022-11-18
发明（设计）人：	孙涛;申凯;万根顺;潘嘉;刘聪;胡国平;刘庆峰;胡郁	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L25/54
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	郭亮
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音素识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种音素识别方法、装置、电子设备和存储介质，所述方法包括：确定待识别语音；将待识别语音输入至音素识别模型，得到音素识别模型输出的音素识别结果；音素识别模型基于多个语种的样本语音及各样本语音的音素级标签，对第一识别模型进行训练得到，第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度，对第二识别模型下的音素节点进行筛选得到的，第二识别模型包括多个语种分别对应的音素节点。本发明提供的音素识别方法、装置、电子设备和存储介质，不仅减小了音素识别模型的规模，而且音素识别模型能够准确对不同语种的音素进行区分。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种音素识别方法、装置、电子设备和存储介质。

背景技术

在语音识别领域中，音素作为语音中的最小的单位，若要提高语音识别的准确度，需要提高语音中每个音素的识别准确度。

在实际应用场景中，语音对应有不同的语种，为了准确对不同语种的语音进行识别，目前多针对每种语种训练一个子模型，并基于这些子模型构建得到音素识别模型，以利用音素识别模型中的各子模型分别对各语种的语音进行音素识别，进而根据音素识别结果得到对应的语音识别结果。然而，随着语种种类的增加，子模型的个数也会增加，导致音素识别模型的规模也会增大，进而影响音素识别模型在本地芯片上的部署。

发明内容

本发明提供一种音素识别方法、装置、电子设备和存储介质，用以解决现有技术中音素识别模型规模较大的缺陷。

本发明提供一种音素识别方法，包括：

确定待识别语音；

将所述待识别语音输入至音素识别模型，得到所述音素识别模型输出的音素识别结果；

所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签，对第一识别模型进行训练得到，所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度，对所述第二识别模型下的音素节点进行筛选得到的，所述第二识别模型包括多个语种分别对应的音素节点。

根据本发明提供的一种音素识别方法，所述第一识别模型的确定步骤包括：

基于各音素节点所对应音素之间的相似度，对所述第二识别模型下的各音素节点进行聚类，得到多个簇类；

从各簇类中的音素节点筛选得到当前音素节点，并删除各簇类中除当前音素节点以外的其它音素节点，得到所述第一识别模型。

根据本发明提供的一种音素识别方法，所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层，各音素分类层基于各语种对应的音素节点构建得到；

所述第二识别模型基于如下步骤训练得到：

将各语种的样本语音输入至所述第二识别模型的特征提取层，得到所述第二识别模型的特征提取层输出的第一音素隐层特征；