[发明专利]图像中的对象检测在审
申请号: | 201910741745.6 | 申请日: | 2019-08-12 |
公开(公告)号: | CN111178123A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 林哲;沈晓辉;凌明阳;张健明;J·W·Y·权 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;姚杰 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 中的 对象 检测 | ||
在图像中的对象检测的实现中,使用异构训练数据集合来训练对象检测器。第一训练数据集合用于训练图像标记网络以确定目标概念的输入图像的注意力图。第二训练数据集合用于训练条件检测网络,该条件检测网络接受目标概念的注意力图和词嵌入作为条件输入。尽管条件检测网络使用具有少量可见类(例如训练数据集合中的类)的训练数据集合进行训练,但是它通过概念条件推广到新颖的、不可见类,因为目标概念通过条件检测网络经由条件输入传播,从而影响分类和区域建议。因此,扩展了可以检测的对象类,而无需扩展训练数据库以包括附加类。
背景技术
对象检测器检测图像中的对象,诸如利用已经用图像数据集合训练的自适应模型(例如机器学习模型、神经网络等)。对象检测器的性能通常限于对象属于用于训练自适应模型的图像的数据集合内包括的类别的检测,称为“可见”类或类别。因此,当训练数据集合包括狗类别而不是树类别时,对象检测器可能能够检测图像中的狗,但是不能检测图像中的树。
在一些情况下,对象检测器将其检测结果偏向于可见类,诸如最接近目标类别的训练数据集合的对象类别。例如当训练数据集合包括狗类别而不是狐狸类别时,对象检测器可以将图像中的狐狸检测为狗。
此外,诸如零射击检测器的一些对象检测器可以尝试将知识从训练数据集合的对象类别(例如可见类)转移到在训练数据集合中不包括的对象类别(例如不可见类)。然而,这些对象检测器仅限于为了分类目的而不是对象检测和区域建议目的,将知识从可见类转移到不可见类。因此,这些对象检测器经常无法检测不可见类的对象的图像区域。
为了克服对象检测器的这些缺点,可以缩放图像的训练数据集合以包括附加类别(例如数万个可见类)。然而,就成本和时间而言,缩放图像的训练数据集合可能是禁止的。例如需要对图像进行注释以包括附加类别,并且需要确定图像中与对应于附加类别的对象,从而需要大量的手动用户努力。此外,某些类别标签的模糊性加剧了将训练数据集合缩放到包括其他类别或标签的难度,诸如将“香蕉”标签分配给香蕉串或严格地分配给单个香蕉。因此,对象检测器的性能仍然受到用于训练对象检测器的训练数据集合的可见类的限制。
发明内容
描述了用于用对象检测器检测图像中的对象的技术、系统和设备。对象检测器使用图像的异构训练数据集合训练,并且可以检测可见和不可见类的图像中的对象。第一训练数据集合包括具有图像级注释的大规模图像标签数据集合(例如每个图像包括来自较大的标签词汇表的多个标签),并且用于训练对象检测器的标记网络。基于包括基于词语的概念的输入条件,标记网络生成注意力图,该注意力图指示输入图像内的基于词语的概念的存在值,诸如为输入图像的每个像素指示在指定范围内具有存在值的基于词语的概念的相应存在。确定基于词语的概念的词嵌入,其描述基于词语的概念与诸如来自词汇表的标签的不同的基于词语的概念之间的关系。将由对第一数据集合预训练的标记网络生成的注意力图,以及从基于词语的概念生成的词嵌入作为条件输入提供给对象检测器的条件检测网络。利用图像的第二训练数据集合和从预训练的标记网络生成的条件输入来训练条件检测网络。第二训练数据集合包括具有用对应边界框注释的少量可见类(例如数百个类)的图像。通过以针对目标概念(例如基于词语的概念)对注意力图和词嵌入为条件,条件检测网络是图像标签不可知的,并且用作概念特定对象检测器。例如即使条件检测网络使用具有少量可见类的训练数据集合进行训练,它也通过概念条件推广到新颖的、不可见类,因为基于词语的概念通过条件检测网络传播(经由词嵌入和注意力图),并且因此影响条件检测网络的分类和区域建议。因此,由对象检测器可检测的对象类通过本文描述的技术、系统和设备来缩放,而无需缩放训练数据库以包括附加类,从而节省时间和金钱。
本发明内容以简化的形式介绍了概念的选择,这些概念将在下面的具体实施方式中进一步描述。因此,本发明内容不旨在标识所要求保护的主题的必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910741745.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种厂房接地系统
- 下一篇:多孔缓冲谐振静音式消声器及发电机组
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序