[发明专利]一种音频节拍的检测方法、装置、计算机设备和存储介质在审

申请号：	202110565138.6	申请日：	2021-05-24
公开（公告）号：	CN113299318A	公开（公告）日：	2021-08-24
发明（设计）人：	罗海斯·马尔斯;胡正倫	申请（专利权）人：	百果园技术（新加坡）有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/30
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	新加坡巴西班让路***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频节拍检测方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种音频节拍的检测方法、装置、计算机设备和存储介质，该方法包括：获取多媒体文件，多媒体文件中具有多帧音频信号，从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量，对多帧音频特征向量进行编码，获得第一背景向量，在对第一背景向量添加关于音频信号的注意力的条件下，对第一背景向量进行全局的解码，获得音频信号表达的音符，注意力机制具有更高的感受野，可感知全局的信息，有注意对长期信息建模，适于处理音频信号中的节拍，并且，使用注意力机制训练时并不要求样本帧级对齐，降低对样本的要求，提高符合条件的样本的数量，在保证模型的性能的条件下简化模型训练，从而保证检测节拍的精确度。

技术领域

本发明实施例涉及多媒体的技术领域，尤其涉及一种音频节拍的检测方法、装置、计算机设备和存储介质。

背景技术

短视频、微电影等多媒体数据广泛应用，在这些多媒体数据中多使用不同的音乐，多媒体数据与音乐同步、方便进行字幕、特效等后期处理，提高用户观看多媒体数据的体验。

许多用户会使用特定的工具制作多媒体数据，这些工具多会使用音乐节拍检测算法(Musical beat detection)对齐多媒体数据与音乐的音符，从而减少将多媒体数据与音乐的音符同步的工作量。

目前，节拍检测算法多是使用卷积神经网络，卷积神经网络需要使用已对齐节拍的多媒体数据作为样本进行训练，但是，将连续的音乐注释成与音符相对应的片段，从而在时间轴上获得节拍精确的位置既困难又耗时，从而导致样本的数量少，卷积神经网络的性能受到有限的感受野和缺乏样本的影响，性能较差，检测的节拍的精确度较低。

发明内容

本发明实施例提出了一种音频节拍的检测方法、装置、计算机设备和存储介质，以解决检测的节拍的精确度较低的问题。

第一方面，本发明实施例提供了一种音频节拍的检测方法，包括：

获取多媒体文件，所述多媒体文件中具有多帧音频信号；

从所述多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

对多帧所述音频特征向量进行编码，获得第一背景向量；