[发明专利]一种基于端到端的水场景音频的生成方法有效
| 申请号: | 201910091367.1 | 申请日: | 2019-01-30 |
| 公开(公告)号: | CN109936766B | 公开(公告)日: | 2021-04-13 |
| 发明(设计)人: | 刘世光;程皓楠;王凯 | 申请(专利权)人: | 天津大学 |
| 主分类号: | H04N21/439 | 分类号: | H04N21/439;G10L21/003 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 端到端 场景 音频 生成 方法 | ||
1.一种基于端到端的水场景音频的生成方法,其特征在于,包括如下步骤:
步骤一,选取各类水场景视频,并进行预处理;
步骤二,根据预处理后的数据,通过训练获得生成器模型;
步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;
步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频;
其中,步骤一中,所述预处理的方法,包括如下步骤,
A1、提取视频帧的特征,获取视频的信息;
A2、将每秒视频信息转换为与音频维度相同的向量;
步骤A2中,所述视频信息转换公式为,
;
其中 y1, ..., ym 代表所述视频帧的颜色通道信息,每一个通道都是由介于0到255之间的数组成的矩阵,G(y1, ..., ym) 表示基于视频帧生成的音频信号的值,取值范围为-1到1,
x1, ..., xn 表示视频对应的音频信号的值,变化范围为-1到1;
步骤一中,预处理后的视频帧产生的向量Vt可以表示为如下形式,
;
其中,表示连接操作,, ,和表示视频和音频的采样率,分别为30和44100, 表示第t秒的第q帧所提取的特征, Floor表示向下取整;
声音的生成任务可进一步表示为如下形式,
;
其中, 。
2.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,所述生成器模型的训练方法,包括如下步骤:
B1、输入所述视频信息的向量,通过所述生成器模型输出音频信号;
B2、评估所述音频信号,若不对应,则反馈给所述生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。
3.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤四中,所述音色增强器模型的训练方法,包括如下步骤:
C1、输入目标音频的包络,通过所述音色增强器模型输出所述音频的序列;
C2、评估所述音频的序列,若不是目标序列,则反馈给所述音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。
4.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤四中,所述包络的生成方法,包括如下步骤:
D1、输入一段音频序列
D2、取音频序列
D3、所有采样间隔内的包络点pi连接而成的数组Ep,经过线性插值形成长度与
E(1 :len) = interp( max p1,……pLstep ⊕ ... ⊕ max plen − Lstep + 1,……plen ) ,
其中,Pi ϵ GV ,interp()表示线性插值,⊕表示连接操作。
5.如权利要求2所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,输出所述音频信号所使用的损失函数为:
,
其中,λ = 100,其中,X表示声音真实值,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。
6.如权利要求2所述的一种基于端到端的水场景音频的生成方法,其特征在于,步骤二中,评估所述音频信号所使用的损失函数为:
,
其中,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。
7.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于,所述水场景音频的生成方法基于GAN网络,所述GAN网络包括生成器、辨别器及音色增强器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910091367.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动分析机顶盒卫星节目信息的方法
- 下一篇:一种影像分析系统与方法





