[发明专利]基于自然语言短语对图像进行自动分割在审
申请号: | 201810078350.8 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108573257A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 林哲;卢昕;沈晓辉;杨济美;刘晨曦 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06K9/72;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记向量 分割 自然语言 短语 图像特征 语义特征 迭代 更新 图像 递归神经网络 卷积神经网络 标记序列 分割图像 记忆网络 接收图像 模型生成 生成图像 图像区域 自动分割 多模态 图标识 卷积 像素 单词 嵌入 引用 | ||
本发明涉及基于自然语言短语来对图像进行分割。接收图像和n元语法,其包括标记序列。生成图像特征的编码和标记向量序列。完全卷积神经网络对图像特征进行标识和编码。单词嵌入模型生成标记向量。递归神经网络(RNN)基于图像特征编码和标记向量的组合来迭代地更新分割图。分割图标识在由n元语法引用的图像区域中包括哪些像素。基于分割图来生成分割图像。RNN可以是卷积多模态RNN。单独的RNN(诸如长短期记忆网络)可以基于标记的顺序来迭代地更新语义特征的编码。第一RNN可以基于语义特征编码来更新分割图。
背景技术
用于图像增强、注释、编辑或其他这样的图像编辑任务的应用现在广泛存在。很多这样的应用包括将图像分割成多个区域的功能。例如,用户可能希望标识图像中与前景中的对象相关联的部分以及图像中与图像的背景相关联的另一部分。一些应用使得用户能够绘制围绕这样的区域的边界框。但是,这样的手动功能通常需要重要的用户交互,并且只提供总体级别的特征分割。
其他先前可用的系统支持用户提供自然语言短语来对图像进行分割。这样的系统标识图像的潜在特征和整个短语的潜在特征。图像和短语的潜在特征被组合来对图像进行分割。更具体地,这些先前可用的系统处理整个短语以检测短语的潜在特征。只有在整个短语被处理之后,图像和短语的潜在特征才被组合以对图像进行分割。在这点上,图像的潜在特征仅与短语的潜在特征在短语处理结束时组合一次。因此,图像的分割仅基于图像和短语的潜在特征在整个短语已经被处理之后的单个交互。然而,基于对整个表达的分析来对图像进行分割可能导致不准确的分割(例如,不正确的空间布置)。仅作为示例,基于表达“the dog on the right”而没有图像视角,现有技术不能够识别关于图像分割要关注的是“the dog”还是“on the right”。
发明内容
本发明的实施例涉及用于基于自然语言短语中的有序文本(例如,标记或单词)序列来对图像进行自动分割的方法和系统。在这点上,本文中描述的实施例基于被包括在自然语言短语中的特定的有序单词序列来迭代地对图像进行分割。自然语言短语的含义取决于单词在短语中顺序。分析与自然语言短语的有序序列相关联的图像使得能够进行更准确的分割,因为图像与短语之间的交互考虑单词在短语中的顺序。
各种实施例使得用户能够提供图像和自然语言短语。短语可以是指在图像中描绘的对象。各种实施例自动在图像中定位对象并且选择图像中表示对象的部分。更具体地,当自然语言短语指示在图像中描绘的对象(或区域)时,与所指示的对象(或区域)相对应的像素被自动标识和/或选择。这样的自动分割使得用户能够使与感兴趣的对象(或区域)相对应的特定像素聚类被隔离,如经由自然语言短语所指示的。
在至少一个非限制性实施例中,一种方法包括以n元语法(n-gram)的形式接收图像和自然短语。图像包括像素。例如,图像可以包括H×W个像素,其中H和W是正整数。n元语法包括引用图像的区域的有序自然语言标记集合。例如,n元语法可以引用在图像内所描绘的对象。在至少一个实施例中,可以基于接收的自然语言短语来生成n元语法。短语可以引用在图像的区域内所描绘的对象。在一些实施例中,可以作为由用户说出的编码自然语言短语的音频数据来接收短语。可以基于接收的音频数据和语音到文本模型来生成文本数据。n元语法可以基于生成的文本数据来生成。
该方法可以包括生成对图像的图像特征进行编码的图像数据结构。例如,这样的图像特征可以是经由卷积模型标识的潜在的和/或隐藏的图像特征。该方法还可以包括基于标记集合来生成有序标记数据结构集合。每个标记数据结构可以编码对应标记的潜在的和/或隐藏的特征。
该方法还包括基于图像数据结构和标记数据结构集合的组合(或连结)来生成并且迭代地更新分割数据结构。分割数据结构对分割掩模(或图)进行编码。分割图可以被表示和/或构造为二维(2D)张量。分割图标识哪些像素被包括在由n元语法引用的图像的区域中。该方法可以基于图像和分割图来生成并且提供分割图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810078350.8/2.html,转载请声明来源钻瓜专利网。