[发明专利]一种基于目标检测的图像摘要生成方法在审
| 申请号: | 201811436931.0 | 申请日: | 2018-11-28 |
| 公开(公告)号: | CN109543699A | 公开(公告)日: | 2019-03-29 |
| 发明(设计)人: | 曹丹阳;高磊;朱孟贵;候建峰;任旭 | 申请(专利权)人: | 北方工业大学 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/32;G06N3/04 |
| 代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
| 地址: | 100144 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征提取 图像 图像局部区域 注意力机制 目标检测 图像描述 摘要生成 局部区域图像 目标检测算法 图像区域特征 方法提取 图像信息 原始图像 整张图像 计算量 池化 参考 研究 检测 拓展 应用 网络 | ||
本发明公开了一种基于目标检测的图像摘要生成方法,包括图像局部区域特征提取、注意力机制系统和图像描述生成,所述图像局部区域特征提取与注意力机制系统相连,注意力机制系统与图像描述生成相连;所述图像局部区域特征提取采用Faster RCNN检测方法提取图像区域特征,Faster RCNN由原始图像特征提取、RPN网络和ROI池化三个部分组成。本发明提出了将目标检测算法应用到图像摘要任务中,利用局部区域图像特征来表示整张图像,在不丧失图像信息的基础上大大减少了计算量,减少了资源的浪费。本发明拓展了图像摘要任务的研究思路,对于图像摘要任务的研究,具有一定的参考价值。
技术领域
本发明涉及计算机图片处理技术领域,具体是一种基于目标检测的图像摘要 生成方法。
背景技术
由于人工智能的飞速发展,利用深度学习方法解决问题成为热点。图像摘要 是融合了计算机视觉以及自然语言处理的综合性问题,它类似于翻译一副图像为 一段描述文字。对于人类来说,该任务非常容易,可是对于机器来说十分具有挑 战性,机器不仅需要利用模型理解图片的内容,还需要用自然语言去表达它们之 间的关系,除此之外,模型还要能够抓住图像语义信息,生成人类可读的句子, 这对于不能独立思考的机器来说并不容易。图像摘要任务在实际应用中具有十分 重要的意义,比如帮助视障人士更好地理解网络上或者现实世界中图像的内容。
在本文的调研工作中得知图像摘要的方法大致可以分为三类。第一种是基于 模板的方法。该方法的步骤是首先检测图像中的目标、属性以及动作和场景,获 取到这些信息后,将这些信息填入一个固定的句子模板中,虽然这一类方法看起 来比较直观,但是这些信息都需要进行显式的注释,而且由于可用的类别通常很 少,这些方法不会生成足够丰富的句子。此外,由于该方法使用的模板比较死板, 生成的句子也不那么自然。Ma等人推断了一个场景元素的三元组,使用模板将 其转换为文本。Kulkarni等人采用条件随机字段(CRF),在填充插槽之前,对对 象、属性和介词等进行联合推理。而方法使用更强大的语言模板,例如语法结构 良好的树,并从属性检测的输出中添加描述性信息。
第二种方法称之为转移标题生成策略。该方法首先要检索类似的图像,然后 将这些图像的标注转移到所查询图像上来,类似于将检索到的图片已有的摘要给 需要生成标注的图像使用。这些方法的优点是生成的摘要比基于模板的方法生成 的摘要更像是人类发出的语言。但是由于这种方法非常依赖检索结果,所以通过 此方法生成的摘要的灵活性很低。
由于深度学习的飞速发展,各领域都采用深度学习相关方法进行研究,第三 种方法就是基于神经网络的模型。在机器翻译中,神经网络取得了极大的成功, 类似于机器翻译中序列到序列问题,这里采用的是编码器到解码器的框架,认为 图像摘要问题就是将图像翻译成文本。Vinyals等人使用LSTM代替基本的RNN 作为解码器,使用了卷积层之后的全连接层来表示图像特征。Xu等人提出将视 觉注意力整合到LSTM模型中,以便在对应词的生成过程中对不同的目标进行关 注。Lu等人提出了一种自注意力机制,能够决定“何时”进行关注以及关注“哪 儿”,该注意力机制有了很高的灵活性。Chen等人提出了多通道联合空间注意 力机制,不仅将注意力机制应用于多层卷积层,同时也对每层卷积特征上的特定 区域进行关注,提高了目标区域关注权重。
上述的几种方法都具有自己的优点,但是各自的缺点也十分明显,基于模板 的方法句型单一,基于转移标题生成策略的方法灵活性很差,而传统的深度学习 方法虽然效果较好,但是使用了整张图像的全局信息,造成了资源的浪费,这对 于计算机硬件来说是很大的消耗。
发明内容
本发明的目的在于提供一种基于目标检测的图像摘要生成方法,以解决上述 背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811436931.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于机器识别的灰度编码码盘
- 下一篇:一种抗遮挡的服饰关键点检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





