[发明专利]一种基于端到端的水场景音频的生成方法有效

专利信息
申请号: 201910091367.1 申请日: 2019-01-30
公开(公告)号: CN109936766B 公开(公告)日: 2021-04-13
发明(设计)人: 刘世光;程皓楠;王凯 申请(专利权)人: 天津大学
主分类号: H04N21/439 分类号: H04N21/439;G10L21/003
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 潘俊达
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 端到端 场景 音频 生成 方法
【权利要求书】:

1.一种基于端到端的水场景音频的生成方法,其特征在于,包括如下步骤:

步骤一,选取各类水场景视频,并进行预处理;

步骤二,根据预处理后的数据,通过训练获得生成器模型;

步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;

步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频;

其中,步骤一中,所述预处理的方法,包括如下步骤,

A1、提取视频帧的特征,获取视频的信息;

A2、将每秒视频信息转换为与音频维度相同的向量;

步骤A2中,所述视频信息转换公式为,

其中 y1, ..., ym 代表所述视频帧的颜色通道信息,每一个通道都是由介于0到255之间的数组成的矩阵,G(y1, ..., ym) 表示基于视频帧生成的音频信号的值,取值范围为-1到1,

x1, ..., xn 表示视频对应的音频信号的值,变化范围为-1到1;

步骤一中,预处理后的视频帧产生的向量Vt可以表示为如下形式,

其中,表示连接操作,, ,和表示视频和音频的采样率,分别为30和44100, 表示第t秒的第q帧所提取的特征, Floor表示向下取整;

声音的生成任务可进一步表示为如下形式,

其中, 。

2.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,所述生成器模型的训练方法,包括如下步骤:

B1、输入所述视频信息的向量,通过所述生成器模型输出音频信号;

B2、评估所述音频信号,若不对应,则反馈给所述生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。

3.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤四中,所述音色增强器模型的训练方法,包括如下步骤:

C1、输入目标音频的包络,通过所述音色增强器模型输出所述音频的序列;

C2、评估所述音频的序列,若不是目标序列,则反馈给所述音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。

4.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤四中,所述包络的生成方法,包括如下步骤:

D1、输入一段音频序列GV以及包络的采样间隔Lstep

D2、取音频序列GV中每一个采样间隔Lstep内的绝对值的最大值作为这段间隔内的一个包络点pi;

D3、所有采样间隔内的包络点pi连接而成的数组Ep,经过线性插值形成长度与GV相同的序列E(1 : len),即为音频序列GV所对应的包络,

E(1 :len) = interp( max p1,……pLstep ⊕ ... ⊕ max plen − Lstep + 1,……plen ) ,

其中,Pi ϵ GV ,interp()表示线性插值,⊕表示连接操作。

5.如权利要求2所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,输出所述音频信号所使用的损失函数为:

,

其中,λ = 100,其中,X表示声音真实值,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。

6.如权利要求2所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,评估所述音频信号所使用的损失函数为:

,

其中,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。

7.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,所述水场景音频的生成方法基于GAN网络,所述GAN网络包括生成器、辨别器及音色增强器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910091367.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top