[发明专利]使用弱监督数据自动生成图像字幕的方法和系统有效
申请号: | 201610995334.6 | 申请日: | 2016-11-11 |
公开(公告)号: | CN106973244B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 王兆闻;尤全增;金海琳;方晨 | 申请(专利权)人: | 奥多比公司 |
主分类号: | H04N5/278 | 分类号: | H04N5/278;H04N21/431;H04N21/488;G06N3/08;G06N3/04 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 监督 数据 自动 生成 图像 字幕 方法 系统 | ||
本发明的各实施例总体上涉及使用弱监督为图像配字幕。具体地,本文中描述了用于使用弱监督为图像配字幕的技术。在实现中,获取关于目标图像的弱监督数据并且使用其提供补充被获得用于图像配字幕的全局图像概念的细节信息。弱监督数据是指没有被紧密地监管并且可能包括误差的噪声数据。给定目标图像,可以从弱注释的图像的源、诸如在线社交网络采集在视觉上相似的图像的弱监督数据。通常,在线发布的图像包括由用户添加的标签、标题、标注和短描述形式的“弱”注释。通过提取在不同源中发现的在视觉上相似的图像的关键词来生成目标图像的弱监督数据。然后在图像配字幕分析期间采用弱监督数据中包括的关键词来调制被应用于概率分类的权重。
背景技术
自动生成图像的自然语言描述由于用于图像搜索、视觉受损人群的可访问性、以及图像采集的管理的实际应用而不断地吸引着人们的兴趣。传统的用于图像处理的技术由于传统的图像标记和搜索算法的限制而不支持高精度自然语言配字幕和图像搜索。这是因为,传统的技术仅使标签与图像相关联,但是没有定义标签之间或者标签与图像本身之间的关系。另外,传统的技术可以包括使用自顶向下方法,在该方法中,首先得到图像的整个“要点”然后通过语言建模和语句生成将其细化为适当的描述性词语或字幕。然而,这一自顶向下方法在捕获图像的精细细节(诸如贡献图像的精确描述的局部对象、属性和区域方面)工作并不良好。这样,可能很难使用传统的方法来生成精确且复杂的图像字幕,诸如“给在高的椅子中拿着玩具的孩子喂食的人”。因此,使用传统的技术生成的字幕可能忽略重要的图像细节,这使得用户很难搜索具体图像并且基于相关联的字幕来全面地理解图像的内容。
发明内容
本发明内容部分介绍简化形式的概念的选择,这些概念在下面在具体实施例部分中进一步描述。这样,本发明内容部分并非意图标识要求保护的主题的基本特征,也并非意图用于帮助确定要求保护的主题的范围。
本文中描述用于使用弱监督为图像配字幕的技术。在一个或多个实现中,获取关于目标图像的弱监督数据并且使用其提供补充被获得用于图像配字幕的全局图像概念的细节信息。弱监督数据是指没有被紧密地监管并且可能包括误差的噪声数据。给定目标图像,可以从弱注释的图像的不同的源(诸如在线社交网络、图像共享站点和图像数据库)来采集在视觉上相似的图像的弱监督数据。通常,在线发布的图像包括由用户添加的标签、标题、标注和短描述形式的“弱”注释。通过提取和聚合在弱注释图像的不同的源中发现的在视觉上相似的图像的关键词来生成目标图像的弱监督数据。然后,在图像配字幕分析期间采用弱监督数据中包括的关键词来调制被应用于概率分类的权重。因此,取决于弱监督数据来计算用于预测图像配字幕的词语的概率分布。
在各实现方式中,图像配字幕框架基于神经网络和机器学习。给定目标图像,应用特征提取技术以得到描述图像的“要点”的全局图像概念。例如,可以使用预先训练的卷积神经网络(CNN)来使用全局描述性术语对图像编码。CNN产生反映全局图像概念的视觉特征矢量。然后,将所得到的关于全局图像概念的信息馈送到语言处理模型中,语言处理模型操作以在概率上生成图像的描述性字幕。比如,可以将视觉特征矢量馈送到循环神经网络(RNN)中,RNN被设计成实现语言建模和语句生成技术。RNN被设计成基于根据多个迭代中的权重因子计算的概率分布来迭代地预测用于组合作为目标图像的字幕的词语的序列。在这一上下文中,弱监督数据通过调制在模型中施加的权重因子来向RNN通知说明附加细节信息的操作。以这一方式,将弱监督数据中包括的关键词注入到图像配字幕框架中以补充全局图像概念,这使得能够以更大复杂性和精度来生成图像字幕。
附图说明
参考附图来描述详细描述。在附图中,附图标记的最左侧数字标识其中首次出现该附图标记的附图。在描述和附图中不同实例中的相同的附图标记的使用可以表示相似或相同的术语。附图中表示的实体可以表示一个或多个实体,因此可以在讨论中可互换地引用这些实体的单数或复数形式。
图1是可操作以采用本文中描述的技术的示例实现方式中的环境的图示;
图2描绘示出根据一个或多个实现方式的字幕生成器的细节的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610995334.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种芯片、数字视频信号传输系统
- 下一篇:影像感测器及使用其的影像撷取装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置