[发明专利]视频生成方法、装置、设备及存储介质有效
| 申请号: | 202011587839.1 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112752118B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 杜绪晗;焦少慧;苏再卿 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
| 主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/234;H04N21/2343;H04N21/439;H04N21/44;H04N21/4402;G06T3/00;G06T13/20;G06T13/40;G06T13/80 |
| 代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 生成 方法 装置 设备 存储 介质 | ||
1.一种视频生成方法,其特征在于,包括:
提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征,其中,所述语音特征包括维度,所述图像特征包括通道数、图像高度、图像宽度,所述语音帧与所述视频帧一一对应;
根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;
根据仿射变换后的视频帧生成目标视频;
根据所述语音特征和所述图像特征对所述视频帧进行仿射变换,包括:
将所述语音特征和所述图像特征输入设定神经网络,获得仿射变换后的视频帧,其中,所述设定神经网络包括至少一个子网络和至少一个仿射变换单元;
所述子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层,子网络的输出为子仿射变换系数,所述仿射变换单元用于根据所述子仿射变换系数对所述图像特征进行仿射变换;
其中,对于每个子网络,所述图像特征输入所述全局均值池化层进行池化处理;池化处理后的图像特征输入所述特征拼接层,和输入所述特征拼接层的语音特征进行特征拼接;拼接后的特征输入所述至少两个全连接层进行特征提取后,输入所述维度变换层,获得子仿射变换系数。
2.根据权利要求1所述的方法,其特征在于,若设定神经网络包括至少两个子网络,则第1个子网络的输入为所述语音特征和所述图像特征,第N个子网络的输入为所述语音特征和根据第N-1个子网络输出的子仿射变换系数变换后的图像特征;其中,N≥2。
3.根据权利要求1或2所述的方法,其特征在于,将所述语音特征和所述图像特征输入设定神经网络,获得仿射变换后的视频帧,包括:
所述仿射变换模块根据所述子仿射变换系数对输入所述子网络的图像特征进行仿射变换,获得仿射变换后的图像特征;
若所述子网络是最后一个子网络,则根据仿射变换后的图像特征确定视频帧;
若所述子网络不是最后一个子网络,则将仿射变换后的图像特征输入下一个子网络。
4.根据权利要求1所述的方法,其特征在于,根据所述语音特征和所述图像特征对所述视频帧进行仿射变换,包括:
根据所述语音特征和所述图像特征对所述视频帧各通道分别进行仿射变换。
5.根据权利要求1所述的方法,其特征在于,所述视频帧对应的视频包括由同一张人脸图片合成的视频。
6.一种视频生成装置,其特征在于,包括:
特征提取模块,用于提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征,其中,所述语音特征包括维度,所述图像特征包括通道数、图像高度、图像宽度,所述语音帧与所述视频帧一一对应;
仿射变换模块,用于根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;
目标视频生成模块,用于根据仿射变换后的视频帧生成目标视频;
所述仿射变换模块,具体用于:
将语音特征和图像特征输入设定神经网络,获得仿射变换后的视频帧,其中,所述设定神经网络包括至少一个子网络和至少一个仿射变换单元;
所述子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层,子网络的输出为子仿射变换系数,所述仿射变换单元用于根据所述子仿射变换系数对所述图像特征进行仿射变换;
其中,对于每个子网络,所述图像特征输入所述全局均值池化层进行池化处理;池化处理后的图像特征输入所述特征拼接层,和输入特征拼接层的语音特征进行特征拼接;拼接后的特征输入所述至少两个全连接层进行特征提取后,输入所述维度变换层,获得子仿射变换系数。
7.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如权利要求1-5中任一所述的视频生成方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-5中任一所述的视频生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011587839.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种畜牧养殖废弃物智能化处理设备
- 下一篇:一种简易连续涂覆装置





