[发明专利]压缩音频识别方法、装置及存储介质在审
申请号: | 202110887281.7 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113555034A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 王润宇;付立;资礼波;李萧萧 | 申请(专利权)人: | 京东数科海益信息科技有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L15/06;G10L19/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 压缩 音频 识别 方法 装置 存储 介质 | ||
本公开涉及一种压缩音频识别方法、装置及存储介质,上述方法包括:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题。
技术领域
本公开涉及通信领域,尤其涉及一种压缩音频识别方法、装置及存储介质。
背景技术
随着技术的进步,智能语音识别被广泛用于智能硬件、语音输入、呼叫中心等场景中。然而由于语音识别系统大部分为基于云端部署,用户需上传设备采集的音频至云端系统进行处理。当前,用户上传的音频多为无损压缩音频文件格式,无损压缩音频文件的特点为信号不失真,语音识别准确率高,但同时文件较大,会对网络造成压力,在网络负载较大时会造成网络服务崩溃。因此,在上传时,较好的做法为使用有损压缩格式进行传输,该种方法特点为音频文件的压缩比高,压缩后文件最小为原文件大小的10%。但有损压缩会带来特征缺失问题,由于现有的语音识别模型通常在无损音频训练集上进行训练,语音识别模型对有损压缩音频的识别准确率较低。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:语音识别模型对有损压缩音频的识别准确率较低等问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种压缩音频识别方法、装置及存储介质,以至少解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题。
本公开的目的是通过以下技术方案实现的:
第一方面,本公开的实施例提供了一种压缩音频识别方法,包括:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。
在一个示范性实施例中,所述通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵之前,所述方法还包括:获取训练无损音频,并通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。
在一个示范性实施例中,获取训练无损音频之前,所述方法还包括:获取生活常用文本数据和/或专业常用文本数据;对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;将所述训练无损音频存储在音频数据中心。
在一个示范性实施例中,所述增量学习训练,包括:将训练音频输入嵌入层,并通过所述嵌入层输出多个字向量和/或多个词向量,其中,所述训练音频包括:所述训练无损音频和所述训练有损音频,所述原始声学模型、所述无损声学模型和所述有损声学模型均包含所述嵌入层;通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表;根据所述特征向量列表对声学模型进行训练,其中,所述声学模型包括:所述原始声学模型、所述无损声学模型和所述有损声学模型。
在一个示范性实施例中,所述根据所述特征向量列表对声学模型进行训练,包括:统计所述特征向量列表中所述多个字向量和/或所述多个词向量的类别和出现频率;根据所述多个字向量和/或所述多个词向量的类别和出现频率确定霍夫曼树;根据所述霍夫曼树对所述声学模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数科海益信息科技有限公司,未经京东数科海益信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110887281.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝车厢瓦楞板立焊自动线
- 下一篇:一种便于清洁的气体纯化过滤设备