[发明专利]一种语音识别方法、装置、存储介质及设备在审
申请号: | 202211041439.X | 申请日: | 2022-08-29 |
公开(公告)号: | CN115410560A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 李繁;段纪丁;汤建飞;吴晓妍;葛稳 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/18;G10L15/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马小青 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 存储 介质 设备 | ||
1.一种语音识别方法,其特征在于,包括:
获取目标用户发出的待识别的目标语音;并确定出所述目标语音对应的目标文本;
将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型,提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征;所述多模态特征提取模型是根据所述预设信息识别节点对应的正样本语音数据和负样本语音数据,利用损失函数进行对比训练得到的;
将所述目标语音在预设信息识别节点对应的语音特征和文本特征,与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算,得到匹配结果;
将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算,得到融合结果;并根据所述融合结果,对所述目标语音进行识别,得到所述目标语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述多模态特征提取模型的构建方式如下:
获取样本语音数据,所述样本语音数据包括所述预设信息识别节点对应的正样本语音数据和负样本语音数据;
将训练样本语音数据、所述正样本语音数据和负样本语音数据输入初始多模态特征提取模型,通过调整损失函数,训练得到所述多模态特征提取模型;
其中,所述初始多模态特征提取模型包括VGGish编码器、Bert编码器、机器阅读理解模型MRC、多层感知机MLP。
3.根据权利要求2所述的方法,其特征在于,所述损失函数为合页损失函数;所述损失函数用于拉近正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型,提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征,包括:
将所述目标语音和所述目标文本分别输入至预先构建的多模态特征提取模型的VGGish编码器和Bert编码器,进行编码处理,得到初始语音表征和初始文本表征;
利用多模态特征提取模型中的机器阅读理解模型MRC,将所述Bert编码器输出的整句表征CLS,与所述初始语音表征进行复杂注意力机制co-attention编码,得到融合后的语音表征;并利用所述融合后的语音表征,预测得到与所述目标用户的用户信息相关的语音区间的起点和终点;
利用多模态特征提取模型中的多层感知机MLP,对所述与所述目标用户的用户信息相关的语音区间对应的语音表征进行池化pooling操作,得到所述目标语音在预设信息识别节点对应的语音特征;
将所述与所述目标用户的用户信息相关的语音区间对应的语音表征,与所述初始文本表征进行co-attention编码,得到融合后的文本表征;并利用所述MLP对所述融合后的文本表征进行pooling操作,得到池化后的文本表征;
按照预设文本分类的方式,对所述初始文本表征进行token标签类别的分类,得到分类后的文本表征,并将所述分类后的文本表征与所述池化后的文本表征进行拼接,得到拼接后的文本表征,作为所述目标语音在预设信息识别节点对应的文本特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取验证用户发出的验证语音;并确定出所述验证语音对应的验证文本;
将所述验证语音和所述验证文本输入至所述多模态特征提取模型,获得与所述验证用户的用户信息相关的语音区间的起点和终点,以及所述验证文本对应的分类后的文本表征;
当与所述验证用户的用户信息相关的语音区间的起点和终点与所述验证语音对应的人工标注的起点和终点不一致,且所述验证文本对应的分类后的文本表征与所述验证文本对应的人工标注的token标签类别结果不一致时,将所述验证语音重新作为所述样本语音,对所述多模态特征提取模型进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211041439.X/1.html,转载请声明来源钻瓜专利网。