[发明专利]一种语音识别方法、装置、存储介质及设备在审

申请号：	202211041439.X	申请日：	2022-08-29
公开（公告）号：	CN115410560A	公开（公告）日：	2022-11-29
发明（设计）人：	李繁;段纪丁;汤建飞;吴晓妍;葛稳	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/18;G10L15/02
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	马小青
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法装置存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音识别方法、装置、存储介质及设备，该方法包括：首先获取目标语音，并确定出其对应的目标文本，然后将二者输入至预先构建的多模态特征提取模型，提取目标语音在预设信息识别节点对应的语音特征和文本特征；其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；接着，将目标语音在预设信息识别节点对应的语音特征和文本特征，与知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；进而将各个预设信息识别节点对应的匹配结果进行融合计算，并根据融合结果对目标语音进行识别。从而能够在对用户进行语音识别时，有效提高识别效率和准确率。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语音识别方法、装置、存储介质及设备。

背景技术

随着人工智能技术在自然理解方面取得的巨大效果，对话系统被越来越广泛的应用于各类实际场景，例如：“语音助手”、“智能外呼机器人”等。

目前，信用卡业务新用户获取的主要实现方式包括通过外呼的方式，利用对话系统与用户进行对话，进而通过对用户的对话信息进行语音识别以获取用户的信息。但与用户进行在线对话过程中，往往会存在对话信息量不足、对话中存在干扰、方言难以理解或语音信息省略等问题，对于用户的在线、实时语音识别带来了较大的影响，造成最终的语音识别效果较差。

发明内容

本申请实施例的主要目的在于提供一种语音识别方法、装置、存储介质及设备，能够在对用户进行语音识别时，有效提高语音识别效率和识别结果的准确率。

本申请实施例提供了一种语音识别方法，包括：

获取目标用户发出的待识别的目标语音；并确定出所述目标语音对应的目标文本；

将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型，提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征；所述多模态特征提取模型是根据所述预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；

将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；

将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据所述融合结果，对所述目标语音进行识别，得到所述目标语音的识别结果。

一种可能的实现方式中，所述多模态特征提取模型的构建方式如下：

获取样本语音数据，所述样本语音数据包括所述预设信息识别节点对应的正样本语音数据和负样本语音数据；

将训练样本语音数据、所述正样本语音数据和负样本语音数据输入初始多模态特征提取模型，通过调整损失函数，训练得到所述多模态特征提取模型；

其中，所述初始多模态特征提取模型包括VGGish编码器、Bert编码器、机器阅读理解模型MRC、多层感知机MLP。

一种可能的实现方式中，所述损失函数为合页损失函数；所述损失函数用于拉近正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。