[发明专利]视频处理方法、相关装置及存储介质有效
申请号: | 202211667935.6 | 申请日: | 2022-12-23 |
公开(公告)号: | CN116074577B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 北京生数科技有限公司 |
主分类号: | H04N21/44 | 分类号: | H04N21/44;G06N20/00 |
代理公司: | 北京箴思知识产权代理有限公司 11913 | 代理人: | 蒋志栋 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 处理 方法 相关 装置 存储 介质 | ||
本申请实施例涉及计算机视觉领域,提供一种视频处理方法、相关装置及存储介质,该方法包括:获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到;基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;若所述目标损失未收敛,则基于所述目标损失更新所述生成器;基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。本申请实施例中在生成图像序列时,至少基于真实度判别损失约束生成器,在视频层面对图像的连续生成提供了指导。
技术领域
本申请实施例涉及计算机视觉领域,更具体地涉及一种视频处理方法、相关装置及存储介质。
背景技术
通过语音驱动人脸视频生成的方案,可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域,满足上述领域对智能虚拟形象的功能需求和性能需求,并基于人工智能大幅度降低相关行业的人工劳动。
现有技术中往往采用生成式对抗网络(Generative Adversarial Networks,GAN)基于输入的语音和目标人物图像,生成目标人物的换口型视频。然而,由于GAN通常仅对单张图像的质量负责,并不关心多张图像之间的联系,因此现有技术生成的换口型视频存在明显瑕疵,例如连续帧图像之间的人物动作衔接不自然,出现图像抖动的现象。
在目标人物的换口型视频的生成方案中,通常是仅生成目标人物的头部图像,并将该头部图像粘贴回原视频中。由于现有技术在生成单张头部图像时,并未考虑人物头部前后动作的连贯性和一致性,这就导致随着人物动作变化,生成图像的瑕疵(尤其是图像边缘靠近贴合部位的地方)会在连续播放时被放大。另外,不同图像之间明暗、光线的差异,在单张观察时并不明显,一旦连续播放,这些属性的差异也会被肉眼直观的捕捉到。
发明内容
本申请实施例提供一种视频处理方法、相关装置及存储介质,可以生成前后帧图像连贯性和一致性较高的换口型视频。
第一方面,本申请实施例提供一种视频处理方法,该方法包括:
获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到;
基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;
若所述目标损失未收敛,则基于所述目标损失更新所述生成器;
基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。
第二方面,本申请实施例提供一种视频处理装置,具有实现对应于上述第一方面提供的视频处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施方式中,所述视频处理装置包括:
输入输出模块,被配置为获取目标语音片段以及目标对象的面部图像;
处理模块,被配置为获取候选图像序列,所述候选图像序列基于所述目标语音片段以及所述面部图像得到;
所述处理模块,还被配置为基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;
所述处理模块,还被配置为若所述目标损失未收敛,则基于所述目标损失更新所述候选图像序列;以及基于更新的候选图像序列,获取更新的目标损失,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京生数科技有限公司,未经北京生数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211667935.6/2.html,转载请声明来源钻瓜专利网。