[发明专利]短视频生成方法、装置、计算机设备及存储介质在审
| 申请号: | 202211619597.9 | 申请日: | 2022-12-15 |
| 公开(公告)号: | CN115955582A | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 彭粤;刘喜声;陈闽;刘湘子;刘卓一;宁夏夏;周璇;王旭根;梁亚妮;刘映 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/439;G10L25/24;G10L25/18;G10L25/30;G10L15/26;H04N21/44;H04N21/234;H04N21/488;G06V40/16;G06V40/20;G06V20/40;G06V10/82;G06N |
| 代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
| 地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 生成 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及语音语义领域,尤其涉及一种短视频生成方法、装置、计算机设备及存储介质。其方法包括:对音频数据进行基于梅尔倒谱系数算法的语音特征提取,得到音频数据的语音特征;通过对抗网络模型对语音特征和音频数据进行动作预测处理,得到与音频数据对应的预测动作特征;通过人脸识别模型对人脸视频数据进行人脸识别,得到与人脸视频数据对应的目标人脸特征;将预测动作特征和目标人脸特征嵌入视频生成器中进行渲染,生成包含虚拟人脸运动的短视频。本发明生成的短视频既包含与音频数据和人脸视频数据对应的虚拟人脸运动,又包含音频数据,不会存在卡顿、忘词等情况,视频效果较好,可满足用户的需求,提高用户体验感。
技术领域
本发明涉及语音语义领域,尤其涉及一种短视频生成方法、装置、计算机设备及存储介质。
背景技术
随着视频技术的快速发展,各行各业为了更好地进行信息传播和宣传,通常会选择通过短视频、直播等视频媒体进行信息传播。
然而,由于大部分企业的工作人员,并非专业的视频工作者,需要花费大量的时间进行拍摄视频,导致最终生成的短视频往往不理想。例如,拍摄过程中出现拍摄卡顿、忘词等失误。且现有视频生成技术,针对视频中出现的卡顿、忘词等失误很难完全消除,不留痕迹。因此,生成的视频效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种短视频方法、装置、计算机设备及存储介质,以解决现有视频生成技术,很难消除视频中出现的卡顿、忘词等失误情况,导致视频效果较差的问题。
一种短视频生成方法,包括:
获取音频数据,对音频数据进行基于梅尔倒谱系数算法的语音特征提取,得到所述音频数据的语音特征;
通过对抗网络模型对所述语音特征和所述音频数据进行动作预测处理,得到与所述音频数据对应的预测动作特征;
获取人脸视频数据,通过人脸识别模型对人脸视频数据进行人脸识别,得到与所述人脸视频数据对应的目标人脸特征;
将所述预测动作特征和所述目标人脸特征嵌入视频生成器中进行渲染,生成包含虚拟人脸运动的短视频。
一种短视频生成装置,包括:
语音特征模块,用于获取音频数据,对音频数据进行基于梅尔倒谱系数算法的语音特征提取,得到所述音频数据的语音特征;
预测动作特征模块,用于通过对抗网络模型对所述语音特征和所述音频数据进行动作预测处理,得到与所述音频数据对应的预测动作特征;
目标人脸特征模块,用于获取人脸视频数据,通过人脸识别模型对人脸视频数据进行人脸识别,得到与所述人脸视频数据对应的目标人脸特征;
短视频模块,用于将所述预测动作特征和所述目标人脸特征嵌入视频生成器中进行渲染,生成包含虚拟人脸运动的短视频。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述短视频生成方法。
一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述短视频生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211619597.9/2.html,转载请声明来源钻瓜专利网。





