[发明专利]音频数据处理方法及装置、计算设备有效

申请号：	201711407629.8	申请日：	2017-12-22
公开（公告）号：	CN108010538B	公开（公告）日：	2021-08-24
发明（设计）人：	董健;韩玉刚;颜水成	申请（专利权）人：	北京奇虎科技有限公司
主分类号：	G10L21/10	分类号：	G10L21/10;G10L25/30;G06N3/08;G06N3/04
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频数据处理方法装置计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频数据处理方法，其包括：

将音频数据转化为动态图像数据；其中，所述动态图像数据由多帧语谱图组成；

对所述动态图像数据所包含的多帧语谱图进行分组处理；

获取分组处理后所述动态图像数据中的一帧语谱图；

判断所述帧语谱图是否为任一分组的第1帧语谱图；

若是，则将所述帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；

若否，则将所述帧语谱图输入至经训练得到的神经网络中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取所述帧语谱图所属分组的第1帧语谱图输入至所述神经网络中得到的第j层反卷积层的运算结果，直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；

重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；

将所述处理后的动态图像数据转化为音频数据；

第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。

2.根据权利要求1所述的方法，其中，在判断出所述帧语谱图不是任一分组的第1帧语谱图之后，所述方法还包括：

计算所述帧语谱图与其所属分组的第1帧语谱图的帧间距；

根据所述帧间距，确定i和j的取值；其中，所述第i层卷积层与最后一层卷积层之间的层距与所述帧间距成反比关系，所述第j层反卷积层与输出层之间的层距与所述帧间距成正比关系。

3.根据权利要求2所述的方法，其中，所述方法还包括：预先设置帧间距与所述i和j的取值的对应关系。

4.根据权利要求1-3中任一项所述的方法，其中，在所述直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合之后，所述方法还包括：

若所述第j层反卷积层是所述神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到处理后的帧语谱图；

若所述第j层反卷积层不是所述神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续反卷积层和输出层的运算，以得到处理后的帧语谱图。

5.根据权利要求1所述的方法，其中，所述将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图进一步包括：在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

6.根据权利要求1所述的方法，其中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果之前，所述方法还包括：在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。