[发明专利]音频特征的提取方法、装置、计算机设备及存储介质有效
申请号: | 202010202360.5 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111445921B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/06 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 特征 提取 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种音频特征的提取方法、装置、计算机设备及存储介质,所述方法包括:获取音频的特征序列;调用时间序列相关层对所述特征序列进行时域自相关处理,得到自相关向量序列;调用时频域处理层对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理,得到所述音频的特征向量。本申请采用神经网络层对音频提取到的特征向量,能够表征音频的实质特征和深层特征。
技术领域
本申请实施例涉及多媒体技术领域,特别涉及一种音频特征的提取方法、装置、计算机设备及存储介质。
背景技术
采用机器学习模型对音频特征进行处理时,需要提取向量形式的音频特征。
相关技术中提供了一种音频特征的提取方法,首先将音频在时域和频域构成的频谱图视为一张二维图像,该二维图像的横坐标是时间,纵坐标是频率;然后,采用对二维图像进行卷积的方式,对频谱图进行卷积得到音频的特征向量。其中,对二维图像进行卷积的方式是指:按照卷积核大小将二维图像划分为多个图像块,采用卷积核对二维图像上的图像块按照从左到右、从上到下的顺序进行卷积。
上述方法并没有考虑音频跟图像的本质区别:图像的两个维度是相同的,都代表像素点的排列,而音频的两个维度含义不同的,分别代表时域和频域。因此上述方法为音频所提取的特征向量较差。
发明内容
本申请实施例提供了一种音频特征的提取方法、装置、计算机设备及存储介质,对音频提取到的特征向量能够表征音频的实质特征和深层特征。所述技术方案如下:
一方面,本申请实施例提供了一种音频特征的提取方法,所述方法包括:
获取音频的特征序列;
调用时间序列相关层对所述特征序列进行时域自相关处理,得到自相关向量序列;
调用时频域卷积模块对所述自相关向量序列进行时域特征提取处理和频域特征提取处理,得到特征向量;
基于所述特征向量,确定所述音频的特征向量。
另一方面,本申请实施例提供了一种音频特征的提取装置,所述装置包括:
获取模块,用于获取音频的特征序列;
时间序列相关模块,用于对所述特征序列进行时域自相关处理,得到自相关向量序列;
时频域处理模块,用于对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理,得到所述音频的特征向量。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音频特征的提取方法。
另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音频特征的提取方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述方面所述的音频特征的提取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过调用时间序列相关层对所述特征序列进行时域自相关处理得到自相关向量序列,以及调用时频域处理模块对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理,得到音频的特征向量,综合考虑音频在时域和频域上的特性,同时提取到音频在时域和频域上的实质特征,提高音频的特征向量的提取有效性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010202360.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种断轴保护系统
- 下一篇:一种区块链交易处理方法及系统