[发明专利]一种基于目标检测的图像摘要生成方法在审

申请号：	201811436931.0	申请日：	2018-11-28
公开（公告）号：	CN109543699A	公开（公告）日：	2019-03-29
发明（设计）人：	曹丹阳;高磊;朱孟贵;候建峰;任旭	申请（专利权）人：	北方工业大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/32;G06N3/04
代理公司：	北京久维律师事务所 11582	代理人：	邢江峰
地址：	100144 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征提取图像图像局部区域注意力机制目标检测图像描述摘要生成局部区域图像目标检测算法图像区域特征方法提取图像信息原始图像整张图像计算量池化参考研究检测拓展应用网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于目标检测的图像摘要生成方法，包括图像局部区域特征提取、注意力机制系统和图像描述生成，所述图像局部区域特征提取与注意力机制系统相连，注意力机制系统与图像描述生成相连；所述图像局部区域特征提取采用Faster RCNN检测方法提取图像区域特征，Faster RCNN由原始图像特征提取、RPN网络和ROI池化三个部分组成。本发明提出了将目标检测算法应用到图像摘要任务中，利用局部区域图像特征来表示整张图像，在不丧失图像信息的基础上大大减少了计算量，减少了资源的浪费。本发明拓展了图像摘要任务的研究思路，对于图像摘要任务的研究，具有一定的参考价值。

技术领域

本发明涉及计算机图片处理技术领域，具体是一种基于目标检测的图像摘要生成方法。

背景技术

由于人工智能的飞速发展，利用深度学习方法解决问题成为热点。图像摘要是融合了计算机视觉以及自然语言处理的综合性问题，它类似于翻译一副图像为一段描述文字。对于人类来说，该任务非常容易，可是对于机器来说十分具有挑战性，机器不仅需要利用模型理解图片的内容，还需要用自然语言去表达它们之间的关系，除此之外，模型还要能够抓住图像语义信息，生成人类可读的句子，这对于不能独立思考的机器来说并不容易。图像摘要任务在实际应用中具有十分重要的意义，比如帮助视障人士更好地理解网络上或者现实世界中图像的内容。

在本文的调研工作中得知图像摘要的方法大致可以分为三类。第一种是基于模板的方法。该方法的步骤是首先检测图像中的目标、属性以及动作和场景，获取到这些信息后，将这些信息填入一个固定的句子模板中，虽然这一类方法看起来比较直观，但是这些信息都需要进行显式的注释，而且由于可用的类别通常很少，这些方法不会生成足够丰富的句子。此外，由于该方法使用的模板比较死板，生成的句子也不那么自然。Ma等人推断了一个场景元素的三元组，使用模板将其转换为文本。Kulkarni等人采用条件随机字段(CRF)，在填充插槽之前，对对象、属性和介词等进行联合推理。而方法使用更强大的语言模板，例如语法结构良好的树，并从属性检测的输出中添加描述性信息。

第二种方法称之为转移标题生成策略。该方法首先要检索类似的图像，然后将这些图像的标注转移到所查询图像上来，类似于将检索到的图片已有的摘要给需要生成标注的图像使用。这些方法的优点是生成的摘要比基于模板的方法生成的摘要更像是人类发出的语言。但是由于这种方法非常依赖检索结果，所以通过此方法生成的摘要的灵活性很低。

由于深度学习的飞速发展，各领域都采用深度学习相关方法进行研究，第三种方法就是基于神经网络的模型。在机器翻译中，神经网络取得了极大的成功，类似于机器翻译中序列到序列问题，这里采用的是编码器到解码器的框架，认为图像摘要问题就是将图像翻译成文本。Vinyals等人使用LSTM代替基本的RNN 作为解码器，使用了卷积层之后的全连接层来表示图像特征。Xu等人提出将视觉注意力整合到LSTM模型中，以便在对应词的生成过程中对不同的目标进行关注。Lu等人提出了一种自注意力机制，能够决定“何时”进行关注以及关注“哪儿”，该注意力机制有了很高的灵活性。Chen等人提出了多通道联合空间注意力机制，不仅将注意力机制应用于多层卷积层，同时也对每层卷积特征上的特定区域进行关注，提高了目标区域关注权重。

上述的几种方法都具有自己的优点，但是各自的缺点也十分明显，基于模板的方法句型单一，基于转移标题生成策略的方法灵活性很差，而传统的深度学习方法虽然效果较好，但是使用了整张图像的全局信息，造成了资源的浪费，这对于计算机硬件来说是很大的消耗。

发明内容

本发明的目的在于提供一种基于目标检测的图像摘要生成方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北方工业大学，未经北方工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811436931.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于目标检测的图像摘要生成方法在审

专利文献下载