[发明专利]一种数据处理方法以及设备在审

申请号：	202110797095.4	申请日：	2021-07-14
公开（公告）号：	CN113420178A	公开（公告）日：	2021-09-21
发明（设计）人：	郑炜乔	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G06F16/683	分类号：	G06F16/683;G06F16/635;G06F16/65
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开一种数据处理方法以及设备，其中方法包括如下步骤：获取目标音频文件；对所述目标音频文件进行音频分割，生成至少一个音频片段；使用预设的特征提取网络模型对所述音频片段的特征进行嵌入学习，以得到所述音频片段的嵌入式特征向量；通过音频检索库对所述至少一个音频片段的嵌入式特征向量进行检索，生成所述目标音频文件的检索结果；根据所述检索结果对所述目标音频文件的原创性进行分析。采用本申请，可以提高对音频文件原创性识别的效率和准确率。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法以及设备。

背景技术

在原创音频保护上，目前主要是通过人工检测以及利用音频的相似性进行判别，但在现有技术中，基于人工审核识别的方法，在互联网产品海量的音视频环境下，需要花费大量的人工成本和时间成本，效率低下。同时，现有的基于音频聚类的音频相似性判断方法，主要是通过pitch特征、梅尔频率倒谱系数特征(MFCC)、能量、幅度或包络等特征作为音频指纹，音频识别的准确率受音频特征提取和聚类的影响，在聚类过程中，有些音频本身很相似，无法实现很好的聚类，会导致对音频文件的原创性进行错误地判断。

发明内容

本申请实施例提供一种数据处理方法以及设备，可以提高对音频文件原创性识别的效率和准确率。

本申请实施例一方面提供了一种数据处理方法，可包括：

获取目标音频文件；

对目标音频文件进行音频分割，生成至少一个音频片段；

使用预设的特征提取网络模型对音频片段的特征进行嵌入学习，以得到音频片段的嵌入式特征向量；

通过音频检索库对至少一个音频片段的嵌入式特征向量进行检索，生成目标音频文件的检索结果；

根据检索结果对目标音频文件的原创性进行分析。

在一种可行的实施方式中，数据处理方法还包括：

对至少一个原创音频文件进行特征提取，生成每个原创音频文件的嵌入式特征向量；

将原创音频文件和原创音频文件对应的嵌入式特征向量存储入音频检索库。

在一种可行的实施方式中，对目标音频文件进行音频分割，生成至少一个音频片段，包括：