[发明专利]交互式图像编辑方法、装置、可读存储介质及电子设备有效
申请号: | 202111008172.X | 申请日: | 2021-08-31 |
公开(公告)号: | CN113448477B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 李波;林枭;刘彬;刘奋成;赵旭 | 申请(专利权)人: | 南昌航空大学;联想新视界(南昌)人工智能工研院有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 何世磊 |
地址: | 330063 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交互式 图像编辑 方法 装置 可读 存储 介质 电子设备 | ||
1.一种交互式图像编辑方法,其特征在于,包括:
对原始图像进行属性特征提取,得到图像属性特征;
对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征;
对所述图像属性特征与文本特征进行融合,得到融合特征;
提取所述原始图像的整体结构特征;
将所述整体结构特征与所述融合特征做空间注意力融合处理,得到被编辑区域的修正结构特征;
对被编辑区域的修正结构特征做非编辑区域的结构特征补全,得到修正后的整体结构特征;
将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像;
所述对原始图像进行属性特征提取,得到图像属性特征的步骤包括:
将原始图像输入至图像属性编码器中,以使所述图像属性编码器利用Inception-v3编码抽取最后一层向量输出得到全局属性特征;
将全局属性特征作为所述图像属性编码器输入,利用由超参定义的一组多层感知机,估计出输入图像所对应的维度为的高斯混合分布,得到图像属性特征。
2.如权利要求1所述的交互式图像编辑方法,其特征在于,所述对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征的步骤包括:
所述原始图像对应的描述性文本通过词表映射得到一组单词索引,并进行嵌入得到所述描述性文本长度的词向量;
将所述描述性文本长度的词向量输入至文本编码器中,获取每个时序节点的输出向量,得到文本特征。
3.如权利要求2所述的交互式图像编辑方法,其特征在于,所述对所述图像属性特征与文本特征进行融合,得到融合特征的步骤包括:
将图像属性特征与所述文本特征中的每个词向量作列向方向拼接,得到拼接特征;
将拼接特征输入至Bi-LSTM模型中,并获取所述Bi-LSTM模型中每一时序节点的输出信息,得到对应单词与图像属性分布的融合特征;
取所述Bi-LSTM模型的末节点隐层输出向量作为图像属性-文本融合编码,将所述图像属性-文本融合编码经过一组多层感知机,解耦出融合后的图像属性分布所对应的参数向量组。
4.如权利要求3所述的交互式图像编辑方法,其特征在于,所述将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像的步骤包括:
将参数向量组转化给当前生成中图像,作为生成器结构中的变参;
将修正后的整体结构特征输入至所述生成器中,经过多次上采样与卷积组合块的处理,输出与所述描述性文本匹配的图像。
5.如权利要求1所述的交互式图像编辑方法,其特征在于,所述对原始图像进行属性特征提取的步骤之前还包括:
利用图像属性编码器、文本编码器、内容编码器、融合器和生成器构建交互式图像编辑模型;
采用交叉循环的方式对构建的所述交互式图像编辑模型进行训练。
6.如权利要求2所述的交互式图像编辑方法,其特征在于,所述对原始图像进行属性特征提取的步骤之前还包括:
采用DAMSM算法对所述图像属性编码器与所述文本编码器做映射空间对齐的预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌航空大学;联想新视界(南昌)人工智能工研院有限公司,未经南昌航空大学;联想新视界(南昌)人工智能工研院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008172.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向生态的水资源优化配置方法
- 下一篇:一种减少余热浪费的丙烷脱氢装置