[发明专利]一种一体化的条件图像重绘方法及装置在审
| 申请号: | 202210625609.2 | 申请日: | 2022-06-02 |
| 公开(公告)号: | CN114842105A | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 施柏鑫;李思;孙冀蒙;翁书晨;常征 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T11/60;G06N3/04;G06N3/08 |
| 代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 一体化 条件 图像 方法 装置 | ||
本发明公开了一种一体化的条件图像重绘方法及装置,设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互,通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性,生成高质量、拼接自然的重绘图像。同时,本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征,兼顾局部特征和全局特征,即粗细粒度的特征匹配,使得文本编码器能进行细粒度表征,缓解两阶段中的重绘图像与颜色文本间的不一致现象,使得重绘图像和输入颜色条件保持一致,满足用户需求。此外,本发明扩展了应用场景,构造了一个新的风景数据集,实现了人物重绘到对室外风景重绘的扩展,体现了本发明方法较高的泛化性能。
技术领域
本发明涉及计算视觉技术领域,尤其涉及一种一体化的条件图像重绘方法及装置。
背景技术
内容的生产与营销已经成为当今互联网产业盈利的基本方式之一,由内容生产者创作的、以文字、图像、视频等形式出现的多媒体信息吸引了大量消费者的阅读和观看,由此产生了巨大的商业价值,并促进了整个互联网行业的发展。其中,图像编辑是一项重要的工作,在插画设计、视频封面制作、游戏素材制作等方面均有广泛的需求,但编辑图像通常是复杂的,往往需要掌握专业的绘图和美术知识,且创作时间耗时、创作结果难以修改。因此,面对广泛的需求,利用深度学习的方法进行图像编辑已成为近期研究的热点。常见的图像编辑的应用有:给黑白老照片上色,修复被损坏的区域等。为了增加用户在图像编辑中的参与感,条件图像重绘任务成为一个比较热门的话题。
条件图像重绘(Conditional image repainting,CIR)是一种先进的图像编辑任务,需要模型基于用户提供的多模态输入(颜色、几何、背景等),在指定的区域内生成让用户满意的视觉内容。条件图像重绘任务中,“重绘”代表着已有图像中的部分区域被重新绘制,而“条件”则表示重新绘制的内容是由用户输入的多模态条件控制生成的,这些多模态条件输入包括:纹理条件(形态为高斯噪声)、颜色条件(形态为文本属性或自然语言)、几何条件(形态为语义分割掩码)以及背景条件(形态为RGB图像)。
经典的条件图像重绘方法采用两阶段的设计:生成阶段和拼接阶段。(1)在生成阶段中,模型利用输入的颜色、几何、纹理条件来进行重绘内容的生成。(2)在拼接阶段中,模型丢弃第一阶段生成的无意义的背景区域,并用输入的背景条件替换。然后利用拼接模型对重绘区域的色调进行调整,使拼接后的图像更加和谐,最终生成了重绘图像。
现有技术具有如下缺点:
(1)两阶段间的独立性:现有技术将图像重绘任务明确的分为两个阶段,由于拼接阶段是在生成阶段完成之后才能开始,导致拼接模型只能在得到重绘内容的生成后才能进行调整,极大的限制了拼接模型的发挥空间并且导致区域之间的色调不一致,拼接效果不自然。除此之外,由于两阶段的设计,第一阶段生成的背景区域将会被丢弃,因此导致该部分的梯度会被截断,从而导致梯度回传变得不稳定,最终在生成结果上出现很多伪影,极大影响重绘图像的生成质量。
(2)重绘图像和颜色文本之间的不一致性:预训练跨模态相似度模型用于消除不同模态之间的差距,而经典的两阶段方法中,对文本模态和图像模态分别使用全局编码器进行编码,缺乏了细节特征与局部信息的表示,因此重绘图像会不符合颜色条件的约束,导致重绘图像和输入的颜色文本不能保持一致,难以满足用户需求。
(3)现有技术都是在人物场景下应用的,即只能进行室内人物的重绘。
发明内容
本发明针对现有方法受限于两阶段模型的设计,阶段间的独立性以及模态间的差异性导致重绘结果的图像质量不高、重绘区域与背景输入的拼接效果不够自然、重绘图像与颜色输入不一致的技术问题,提出一种一体化的条件图像重绘方法及装置,在一个阶段内建立了不同模态的输入条件之间的交互和依赖关系,提升了重绘图像的生成质量以及重绘区域与背景输入的拼接效果。同时提出一个多层结构的跨模态相似度模型,在不同层次上捕捉不同粒度的特征进行匹配,提高了重绘图像与颜色输入的一致程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210625609.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种河道预制抗冲生态护垫的构建方法
- 下一篇:一种全营养素及其制备方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





