[发明专利]基于注意力机制的目标变换方法有效
申请号: | 201810866277.0 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109033095B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 胡伏原;叶子寒;李林燕;孙钰;付保川 | 申请(专利权)人: | 苏州科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 苏州睿昊知识产权代理事务所(普通合伙) 32277 | 代理人: | 李明 |
地址: | 215009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 目标 变换 方法 | ||
本发明涉及一种基于注意力机制的目标变换方法,包括:训练神经网络模型:步骤1,使用随机数初始化神经网络模型的参数;步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1。利用上述训练得到的神经网络模型进行图像的目标变换,通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。
技术领域
本发明涉及图像翻译,特别是涉及基于注意力机制的目标变换方法。
背景技术
目标变换(Object transfiguraion)是图像翻译一个特别的任务,它的目的是在将图像中的特定类型目标物体转换为另一类型的对象。图像翻译(Image translation)旨在通过学习两类图像之间的映射关系将原始图像转换成目标风格的图像,近年来被应用到很多方面,比如图像超分辨率重建,艺术风格迁移等。研究者已经在有监督条件下提出了很多有效的转化方法。但是,由于成对数据的获取需要大量人力成本和时间成本,无监督条件下的转化方法成为图像翻译中的研究热点。Visual Attribution Transfer(VAT)是其中基于卷积神经网络CNN方法的代表,它使用模型中不同层级的特征对另一幅图中最可能对应的特征进行匹配。此外,使用生成式对抗网络(Generative adversarial network,GAN)的方法取得比基于卷积神经网络的方法更显著的效果。Isola P等人探究了GAN在图像翻译任务中的潜力。随后,Cycle-Consistent Loss被Zhu J.Y等人提出用来解决无监督图像翻译问题,他们假设图像翻译任务中学习的映射关系是一个双向映射,并以此强化模型在无监督环境下图像翻译的效果。
传统技术存在以下技术问题:
当前绝大多数图像翻译方法都没有考虑到将转换对象与背景区的差异性。在目标变化任务中,大多数模型难以有效区分转换目标和背景,无法保证原始图像背景和转换图像背景的一致性。因此,模型在转换过程中会对图像背景产生模糊,变色等作用,降低了转换图像的质量。
发明内容
基于此,有必要针对上述技术问题,提供一种基于注意力机制的目标变换方法,通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。
一种基于注意力机制的目标变换方法,包括:
训练神经网络模型:
步骤1,使用随机数初始化神经网络模型的参数;
步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1;
步骤3,随后f1会经过两个分支网络:(a)一个卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个卷积层再经过一个反卷积层得到与对应的注意力掩膜M2;将M2与逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f2;
步骤4,f2再按步骤3的方式得到下一层的特征图f3;随后,f3会经过6层卷积核尺寸为3*3、步长为1的残差卷积层进一步精细特征;
步骤5,进入解码阶段,反卷积层作为解码器;f3会经过两个分支网络:(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M4;将M4与逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f5;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州科技大学,未经苏州科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810866277.0/2.html,转载请声明来源钻瓜专利网。