[发明专利]基于深度学习的关键词识别方法、系统、介质及设备在审
申请号: | 202111389758.5 | 申请日: | 2021-11-23 |
公开(公告)号: | CN113823277A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 李强;朱勇;王尧;叶东翔 | 申请(专利权)人: | 北京百瑞互联技术有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/26;G10L25/24;G10L25/30 |
代理公司: | 北京国科程知识产权代理事务所(普通合伙) 11862 | 代理人: | 曹晓斐 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 关键词 识别 方法 系统 介质 设备 | ||
本申请公开了一种基于深度学习的关键词识别方法、系统、介质及设备,属于音频解码技术领域,该方法包括:在音频接收端对音频码流解码时,仅进行至标准解码流程中的变换域噪声整形解码步骤,获取所述音频码流对应的离散余弦变换谱系数;对离散余弦变换谱系数进行特征提取,得到梅尔频率倒谱系数;根据预先训练的深度神经网络模型对梅尔频率倒谱系数进行处理,得到音频码流对应的关键词概率。本申请通过对需要解码的音频码流只进行部分解码过程,获取中间参数;通过预训练的深度神经网络模型对中间参数进行处理,得到该音频码流对应的关键词概率,从而省去复杂、运算量大的音频解码步骤与音频时频转换的步骤,节省功耗,提高关键词的识别速度。
技术领域
本申请涉及音频解码技术领域,尤其涉及一种基于深度学习的关键词识别方法、系统、介质及设备。
背景技术
现有技术中,无线音频有很多典型的应用场景,譬如说基于蓝牙的遥控器,其在智能家居产品中使用十分广泛,其大概流程如下:用户发出语音控制命令,如‘打开空调’,经麦克采集、模数转换、音频预处理和音频编码器生成音频压缩包,最后通过无线通信模块发送出去;接收端无线通信模块收到音频压缩包,调用音频解码器生成音频PCM,经关键词识别模块识别出关键词,如‘打开空调’,再将其转换成对应的控制信号来控制家电。其中在音频解码端,对用户语音命令中的关键词进行识别的过程中,在音频解码器的解码过程中涉及频域到时域的转换,而在关键词识别的模块中,又涉及到时域到频域的转换,因为这两个部分的运算量较大,互为逆操作,使得在用户语音中的关键词识别时速度较慢,同时不利于在低功耗语音识别设备中进行部署。
发明内容
针对现有技术中,在音频接收端对语音信号中的关键词进行识别时,对部分运算量较大的处理过程进行反复运算,导致关键词的识别速度较慢,增加功耗的问题,本申请提出一种基于深度学习的关键词识别方法、系统、介质及设备。
在本申请的一个技术方案中,提供一种基于深度学习的关键词识别方法,包括:在音频接收端对音频码流解码时,仅进行至标准解码流程中的变换域噪声整形解码步骤,获取音频码流对应的离散余弦变换谱系数;对离散余弦变换谱系数进行特征提取,得到梅尔频率倒谱系数;根据预先训练的深度神经网络模型对梅尔频率倒谱系数进行处理,得到音频码流对应的关键词概率。
可选的,仅进行至标准解码流程中的变换域噪声整形解码步骤,获取音频码流对应的离散余弦变换谱系数,包括:根据标准解码流程对音频码流进行解码,依次进行码流解析、算术与残差解码、噪声填充与噪声增益、时域噪声解码以及变换域噪声整形解码后,获得离散余弦变换谱系数,其中,该实际解码过程不包括频域与时域的转换过程以及长期后置滤波器的处理过程。
可选的,在频域内对离散余弦变换谱系数进行特征提取,得到梅尔频率倒谱系数,包括:对离散余弦变换谱系数进行预加重处理,并在预加重处理后,直接进行能量谱运算处理,省略掉预加重处理与能量谱运算处理之间的时域到频域的转换过程。
可选的,预加重处理包括:在预建立的预加重系数表中提取相应的预加重系数;根据预加重系数对离散余弦变换谱系数进行预加重处理,其中预加重系数与离散余弦变换谱系数一一对应。
可选的,在音频接收端对音频码流进行解码之前,还包括:获取多个音频文件分别对应的梅尔频率倒谱系数;根据梅尔频率倒谱系数和音频文件对应的关键词,对深度网络模型进行训练,获得深度神经网络模型参数,使得当将梅尔频率倒谱系数输入到深度神经网络模型后,通过深度神经网络模型参数的设定,得到其对应的关键词的准确率大于或等于预设阈值。
在本申请的一个技术方案中,提供一种基于深度学习的关键词识别系统,包括:音频解码模块,其对音频码流进行解码时,进行至标准解码流程中的变换域噪声整形解码步骤,获取音频码流对应的离散余弦变换谱系数;特征提取模块,其对离散余弦变换谱系数进行特征提取,得到梅尔频率倒谱系数;神经网络模型处理模块,其根据预先训练的深度神经网络模型对梅尔频率倒谱系数进行处理,得到音频码流对应的关键词概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百瑞互联技术有限公司,未经北京百瑞互联技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111389758.5/2.html,转载请声明来源钻瓜专利网。