[发明专利]基于时空融合的深度伪造人脸视频定位方法有效

专利信息
申请号: 202110325432.X 申请日: 2021-03-26
公开(公告)号: CN113011357B 公开(公告)日: 2023-04-25
发明(设计)人: 田玉敏;吴自力;王笛;蔡妍;潘蓉 申请(专利权)人: 西安电子科技大学
主分类号: G06V40/16 分类号: G06V40/16;G06V10/80;G06V10/774;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/08
代理公司: 陕西电子工业专利中心 61205 代理人: 田文英;王品华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 时空 融合 深度 伪造 视频 定位 方法
【权利要求书】:

1.一种基于时空融合的深度伪造人脸视频定位方法,其特征在于,构建卷积神经网络,构建融合时域和空间域特征的分类网络,构建分割定位任务网络,构建重建任务网络,构建多任务融合网络;该方法步骤包括如下:

(1)构建卷积神经网络:

(1a)搭建一个13层的卷积神经网络,其各网络层依次串联,串联结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层;

(1b)将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1;

(2)构建融合时域和空间域特征的分类网络:

(2a)搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一softmax层,第三池化层,第四池化层,第三卷积层,第二softmax层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三softmax层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000;

(2b)搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和softmax层连接组成时域网络;将全连接层的神经元个数设置为1000;

(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络;

(3)构建分割定位任务网络:

(3a)搭建一个13层的分割定位任务网络,其各网络层依次串联,串联结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,softmax层;

(3b)设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64;

(4)构建重建任务网络:

(4a)搭建一个8层的重建任务网络,其各网络层依次串联,串联结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层;

(4b)设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64;

(5)构建多任务融合网络:

将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络;

(6)生成多任务融合损失函数:

(6a)生成融合时域和空间域特征的分类网络损失函数L1如下:

其中,λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,表示分类网络中时域网络预测连续T帧待输入图像标签的概率;

(6b)生成分割定位任务网络损失函数L2如下:

其中,ni表示由第i帧待输入图像经过预处理得到的第c帧混合边缘掩膜,表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜,c和d的取值均与i相等;

(6c)生成重建任务网络损失函数L3如下:

其中,xi表示第i帧待输入图像,表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像,h的取值与i相等,||·||2表示二范数操作;

(6d)生成多任务融合损失函数L:

L=L1+β*L2+γ*L3

其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数;

(7)生成训练集:

(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集;

(7b)利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜;

(7c)利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜;

(8)训练多任务融合网络:

(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数;

(8b)将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数;

(9)对深度伪造人脸视频进行识别定位:

(9a)将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像;

(9b)将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜;

(9c)将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110325432.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top