[发明专利]音频数据处理方法、装置、电子设备及存储介质在审

申请号：	202111157074.2	申请日：	2021-09-30
公开（公告）号：	CN115910051A	公开（公告）日：	2023-04-04
发明（设计）人：	唐延欢	申请（专利权）人：	TCL科技集团股份有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/16;G10L15/02
代理公司：	深圳紫藤知识产权代理有限公司 44570	代理人：	万培
地址：	516006 广东省惠州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频数据处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频数据处理方法、装置、电子设备及存储介质，该方法通过调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵，然后确定待处理音频数据的第二音素预测矩阵，并根据第一音素预测矩阵和待处理音频数据的第二音素预测矩阵确定目标音素预测矩阵，最后根据目标音素预测矩阵确定待处理音频数据与预设的关键词的匹配结果，从而能够根据匹配结果判定待处理音频数据是否为用户个性化定制的关键词，进而实现语音唤醒功能。采用本发明实施例，能够解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。

背景技术

语音唤醒功能是当前人机交互系统的必备功能之一，广泛应用于智能音箱、车载、手机等智能语音系统。但目前主流的语音唤醒系统，大多是基于单个唤醒词的深度定制，其模型只能针对一个固定的唤醒词进行唤醒响应，无法满足用户个性化定制唤醒词，乃至个性化定制命令词的需求。

发明内容

本发明实施例的目的是提供一种音频数据处理方法、装置、电子设备及存储介质，以解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

第一方面，本发明实施例提供了一种音频数据处理方法，包括：

调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；

确定待处理音频数据的第二音素预测矩阵；

根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵；

根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

第二方面，本发明实施例提供了一种音频数据处理装置，包括：

调用模块，用于调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；

第一确定模块，用于确定待处理音频数据的第二音素预测矩阵；

第二确定模块，用于根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵；

匹配模块，用于根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

第三方面，本发明实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序，存储器与处理器耦接，且处理器执行计算机程序时以实现上述任一项的音频数据处理方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行以实现上述任一项的音频数据处理方法中的步骤。

本发明实施例提供了一种音频数据处理方法、装置、电子设备及存储介质，该方法通过根据语音识别模型输出的第一音素预测矩阵和待处理音频数据的二音素预测矩阵，确定目标音素预测矩阵，能够在待处理音频数据中含有预设的关键词时，有效提高该关键词对应音素的概率值，从而能够提高识别待处理音频数据中用户个性化定制的关键词的识别准确率，解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

附图说明

图1是本发明实施例提供的音频数据处理方法的一种流程示意图；

图2是本发明实施例提供的语音识别模型的一种结构示意图；

图3是本发明实施例提供的音频数据处理方法的另一种流程示意图；

图4是本发明实施例提供的音频数据处理装置的一种结构示意图；

图5是本发明实施例提供的音频数据处理装置的另一种结构示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于TCL科技集团股份有限公司，未经TCL科技集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111157074.2/2.html，转载请声明来源钻瓜专利网。