[发明专利]基于自注意力的深度生成式对抗网络的人脸图像补全方法在审
| 申请号: | 201910422901.2 | 申请日: | 2019-05-20 |
| 公开(公告)号: | CN110288537A | 公开(公告)日: | 2019-09-27 |
| 发明(设计)人: | 刘楚波;刘晓伟;朱宁波;李肯立;陈建国;陈岑;李克勤 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T3/40;G06K9/62 |
| 代理公司: | 深圳市中原力和专利商标事务所(普通合伙) 44289 | 代理人: | 胡国良 |
| 地址: | 410001 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 人脸图像 网络 注意力 生成式 训练模型 判别器 生成器 图像集 对抗 循环神经网络 图像预处理 模型输入 模型训练 纳什平衡 数据采集 测试集 端到端 训练集 正则化 构建 破损 学习 | ||
1.一种基于自注意力的深度生成式对抗网络的人脸图像补全方法,其特征在于,包括如下步骤:
步骤S0,构建模型:构建包括注意力循环神经网络模块、生成器网络和判别器网络的人脸图像补全模型;
步骤S1,数据采集:收集海量人脸图像形成图像集,并将所述图像集分为训练集和测试集,其中训练集占98%,测试集占2%;
步骤S2,图像预处理:从训练集中随机选取人脸图像并对图像预处理,使其大小适合在深度学习网络中进行处理;
步骤S3,构造作为模型输入的破损人脸图像:随机生成缺失区域块,并得到对应标记矩阵M和破损人脸图像作为模型输入图像,其中i为所得到的破损/残缺图像,Igt是训练集中的完整图像,M是和图像一样大小的标记矩阵,元素由0和1组成,1代表破损/缺失像素,0代表良好像素;
步骤S4,训练模型:利用GAN框架结合多种正则化手段,直接端到端地同时训练生成器网络和判别器网络,具体为:将破损人脸图像读入内存形成多维数组或张量送入生成器网络和判别器网络,由生成器网络和判别器网络目标函数驱动整个模型进行反向传播训练,当二者达到理论上的纳什平衡时,生成器网络生成的图像也即最终的补全图像会使判别器网络无法分辨是否来自训练集样本,判别器网络输出数值接近为1/2,则模型训练完成;
步骤S5,测试模型:将测试图片输入到训练好的人脸图像补全模型中,输出并拼接所得最后修复图片。
2.根据权利要求1所述的人脸图像补全方法,其特征在于,所述生成器网络包括Attentive RNN模块和编码-解码器模块,训练时,输入的破损人脸图像首先通过AttentiveRNN模块得到对应的注意力映射,然后将此注意力映射与输入的破损人脸图像做张量拼接,隐式地指导后续的编码-解码器模块补全图像,最后通过函数Tanh映射输出补全人脸图像。
3.根据权利要求2所述的人脸图像补全方法,其特征在于,所述补全人脸图像输出之前还需做图像拼接步骤,所述图像拼接步骤包括:截取生成器网络生成的补全部分,将该部分和输入的破损人脸图像拼接成一张图,此时拼成的人脸是完整的,其中修复的破损区域来自生成器网络,剩下部分来自输入的破损人脸图像未损伤/残缺部分。
4.根据权利要求3所述的人脸图像补全方法,其特征在于,所述判别器网络分为全局判别器网络和局部判别器网络,所述全局判别器网络的正例为完整原图,负例为所述生成器网络最后拼接而成的补全图,所述局部判别器网络的输入图像的负例为以包含修复部分的相对固定大小的截图,正例为完整原图中的对应部分,通过将局部区域输入到所述局部判别器网络中进行训练,得到判别器网络用于提升局部补全部分的细节以及周边信息融合,通过将整张图像输入到全局判别器网络中进行提升补全图像整体语义的训练。
5.根据权利要求4所述的人脸图像补全方法,其特征在于,所述判别器网络包括多个卷积层、非局部神经块和全连接层,所述卷积层用于提取特征,所述非局部神经块在所述卷积层提取的特征上提取更为全局的特征,所述全连接层用于融合全局判别器网络和局部判别器网络所提取的特征。
6.根据权利要求2所述的人脸图像补全方法,其特征在于,所述Attentive RNN模块包括残差网络块、非局部神经块和LSTM块,输入的破损人脸图像首先进入残差网络块提取图像特征,然后提取的图像特征输入到非局部神经块提取全局特征,提取的全局特征输入到LSTM块进行训练,LSTM块会通过不同开关把细胞状态传给下一级LSTM块,并把当前确定的特征向下输出。
7.根据权利要求2所述的人脸图像补全方法,其特征在于,所述编码-解码器模块包括多个卷积层、空洞卷积层、非局部神经块和全连接层。
8.根据权利要求6所述的人脸图像补全方法,其特征在于,从LSTM块输出的确定特征需经过卷积操作,将其输出规范为图像宽*图像高*1通道的张量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910422901.2/1.html,转载请声明来源钻瓜专利网。





