[发明专利]压缩音频识别方法、装置及存储介质在审
申请号: | 202110887281.7 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113555034A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 王润宇;付立;资礼波;李萧萧 | 申请(专利权)人: | 京东数科海益信息科技有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L15/06;G10L19/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 压缩 音频 识别 方法 装置 存储 介质 | ||
1.一种压缩音频识别方法,其特征在于,包括:
获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;
通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;
通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。
2.根据权利要求1所述的方法,其特征在于,所述通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵之前,所述方法还包括:
获取训练无损音频,并通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;
对所述训练无损音频进行有损压缩处理,以得到训练有损音频;
通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。
3.根据权利要求2所述的方法,其特征在于,获取训练无损音频之前,所述方法还包括:
获取生活常用文本数据和/或专业常用文本数据;
对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;
将所述训练无损音频存储在音频数据中心。
4.根据权利要求2所述的方法,其特征在于,所述增量学习训练,包括:
将训练音频输入嵌入层,并通过所述嵌入层输出多个字向量和/或多个词向量,其中,所述训练音频包括:所述训练无损音频和所述训练有损音频,所述原始声学模型、所述无损声学模型和所述有损声学模型均包含所述嵌入层;
通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表;
根据所述特征向量列表对声学模型进行训练,其中,所述声学模型包括:所述原始声学模型、所述无损声学模型和所述有损声学模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征向量列表对声学模型进行训练,包括:
统计所述特征向量列表中所述多个字向量和/或所述多个词向量的类别和出现频率;
根据所述多个字向量和/或所述多个词向量的类别和出现频率确定霍夫曼树;
根据所述霍夫曼树对所述声学模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述根据所述霍夫曼树对所述声学模型进行训练,包括:
根据所述霍夫曼树确定向量相邻概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;
通过归一化指数函数对所述向量相邻概率进行归一化处理;
根据所述归一化处理后的向量相邻概率对所述声学模型进行训练。
7.根据权利要求1所述的方法,其特征在于,所述通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频,包括:
通过所述解码器对所述概率矩阵进行第一解码操作,以得到多个解码结果,其中,所述解码操作包括第一解码操作;
根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;
将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数科海益信息科技有限公司,未经京东数科海益信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110887281.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝车厢瓦楞板立焊自动线
- 下一篇:一种便于清洁的气体纯化过滤设备