[发明专利]一种语音识别方法、装置、设备及存储介质有效
申请号: | 202010430127.2 | 申请日: | 2020-05-19 |
公开(公告)号: | CN111583916B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 殷兵;严哲;郭涛;胡金水;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/25;G10L15/06;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨华 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 设备 存储 介质 | ||
本申请提供了一种语音识别方法、装置、设备及存储介质,其中,语音识别方法包括:获取目标语音数据和其对应的唇部图像数据,其中,唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列;以目标语音数据对应的唇部图像数据为辅助信息,利用预先建立的混叠语音识别模型,对目标语音数据按说话人进行分离,并对分离后的语音数据进行识别,得到目标语音数据的识别结果;其中,混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本,同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
语音识别技术为将语音信号识别为文本的技术。目前比较成熟的语音识别方案主要为基于语音信号的识别方案,该方案的大致过程为,将待识别的语音信号输入语音识别模型进行识别,从而获得语音识别结果。
然而,基于语音信号的识别方案对于嘈杂环境下的语音识别效果不佳,尤其是嘈杂环境下的多人语音,并且,在针对多人语音识别的场景中,可能会出现多个说话人同时说话的情况,即待识别语音为混叠语音,对于混叠语音,基于语音信号的识别方案很难同时识别出多个说话人的说话内容。
发明内容
有鉴于此,本申请提供了一种语音识别方法、装置、设备及存储介质,用以解决现有技术中的语音识别方法对于嘈杂环境下的语音识别效果不佳,且在待识别语音为混叠语音时,很难同时识别出多个说话人的说话内容的问题,其技术方案如下:
一种语音识别方法,包括:
获取目标语音数据和其对应的唇部图像数据,其中,所述唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列;
以所述目标语音数据对应的唇部图像数据为辅助信息,利用预先建立的混叠语音识别模型,对所述目标语音数据按说话人进行分离,并对分离后的语音数据进行识别,得到所述目标语音数据的识别结果;
其中,所述混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本,同时结合所述训练样本对应的唇部图像数据训练得到。
可选的,所述混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。
可选的,所述以所述目标语音数据对应的唇部图像数据为辅助信息,利用预先建立的混叠语音识别模型,对所述目标语音数据按说话人进行分离,并对分离后的语音数据进行识别,包括:
按预设长度对所述目标语音数据切分,由切分得到的目标语音段组成目标语音段集合;
对于所述目标语音段集合中的每个目标语音段:
利用所述混叠语音识别模型,以及该目标语音段对应的唇部图像数据,对该目标语音段进行分离;
利用所述混叠语音识别模型,以及该目标语音段对应的唇部图像数据,对分离后的各语音段进行识别,以得到该目标语音段的识别结果;
将所述目标语音段集合中各目标语音段的识别结果融合,得到所述目标语音数据的识别结果。
可选的,所述利用所述混叠语音识别模型,以及该目标语音段对应的唇部图像数据,对该目标语音段进行分离,包括:
将该目标语音段输入所述混叠语音识别模型的频谱转换模块,获得该目标语音段的语音频谱;
将该目标语音段的语音频谱输入所述混叠语音识别模型的第一语音特征提取模块,获得该目标语音段对应的语音频谱特征;
将该目标语音段对应的唇部图像数据输入所述混叠语音识别模型的图像特征提取模块,获得该目标语音段对应的唇部图像特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010430127.2/2.html,转载请声明来源钻瓜专利网。