[发明专利]一种多特征融合图像描述方法有效
| 申请号: | 202010444008.2 | 申请日: | 2020-05-22 |
| 公开(公告)号: | CN111598183B | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 刘晋;段铭杨;田小琥 | 申请(专利权)人: | 上海海事大学 |
| 主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/44;G06V10/82;G06V20/70;G06N3/0464;G06N3/08 |
| 代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
| 地址: | 201306 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特征 融合 图像 描述 方法 | ||
本发明公开了一种多特征融合图像描述方法,所述方法包括:获取数据集,并对数据集图像预处理;对预处理后的图像进行多尺度特征提取,获得语义特征和空间特征;将所述语义特征和所述空间特征分别输入至GRU,生成场景图,其中,所述场景图包括场景关系;将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM语言模型,获得图片描述语句。应用本发明实施例,准确率较高,在Visual Genome和MSCOCO公开数据集测试中都有良好的表现。
技术领域
本发明涉及计算机视觉以及自然语言处理技术领域,尤其涉及一种多特征融合图像描述方法。
背景技术
互联网的发展和智能移动设备的普及让大众有更多机会来创造图像信息。无论何时何地,只要你发现了有趣的东西,拿出手机拍照,就可以进行信息共享。近几年,图像数量爆炸性的增长,以图像社交为主的微博等社交平台,图像总数达百亿级,每天平均上传数千万张图像。要处理这个数量级的图像,不可能完全使用人工标注图像并简要描述,因此要使用计算机来辅助对图像进行自动标注和图像描述。
当我们看到一张图像时,可以很容易地识别出其中的实体,并有效描述场景。本发明所讨论的图像描述是给计算机一张图片,让计算机用自然语言给出一段描述图片的文本。然而让计算机生成自然语言对图像进行描述是非常具有挑战性的,因为图像描述不像那些基础的和有重复性的计算机视觉任务,它不仅需要识别图像,还需要理解图像,并将视觉知识转化为句子描述。
为了捕捉视觉和自然语言之间的相关性,我们需要将它们映射到同一个空间,以便了解它们之间的关系。执行此操作的传统方法是使用句子模板或基于图像检索,然而这些方法无法适应新的图像。神经网络由于有能力形成新的语法正确的句子,及其对新颖图像的泛化能力,从而被普遍使用于图像的描述。目前图像描述被广泛应用于生活中,例如帮助视觉障碍用户、人机交互、数据处理等。此外,深入研究图像与语言之间的联系,更好地理解从图像中提取哪些信息并选择适当的描述语言也是今后的发展方向。
对于图像描述的研究从上个世纪一直延续至今,是目前视觉领域研究主要方向之一,早期的研究方法通过颜色、纹理、形状等图像的初级特征,通过一些规则来联系图像中的对象和描述语句的关系,并利用这些特征和关系对图像进行描述。多年来,已经开发了许多不同方法。我们可以将它们大致分为三类:基于模板的图像描述方法、基于检索的图像描述方法和基于神经网络的图像描述方法。
基于模板的这类方法主要思想是检测对象及其属性,并将句子解析为短语,并使用条件随机场等模型学习它们的对应关系。然而由于不能添加新的短语,只能从有限的短语中选择并线性组成句子来描述图像,最终语句的表达相对于人类来说不够自然。由于生成可变长度句子的限制,使得描述语句中的形容词和副词时常不准确,在有限的范围内产生很好的效果,但在数据集外的泛化能力较差。
基于检索的图像描述方法是利用现有的文本去描述类似的图像,同时利用视觉空间中的距离来检索与测试类似的图像,然后修改和组合它们的描述以形成测试图像的描述。该类方法和基于模板的方法相比需要额外的步骤,比如修改和概括,最后得到描述语句的效果要好一些。但是该类方法高度依赖于训练或已有的数据,不能返回训练集中没有的词语,这样使得描述语句缺少多样性。
基于神经网络的方法目前是图像描述问题的主流解决方法,这些方法通过改进已有的图像描述方法框架,图片特征获取方法或语言模型,在常见的数据集有较好的结果。LSTM(长短期记忆网络)作为常用的语言模型经常被用到图像描述方法中,注意力机制由于在机器翻译中效果不错,也被用到了图像描述当中。
根据上述国内外的研究可以发现,利用深度学习对图像进行描述的准确性有了大幅度的提升。本发明在已有的图像描述的方法上,为了更好地获取图像的特征和了解图像中对象之间的关系,提出了一种基于DetNet-110网络及EIOU扩展目标重叠测试标准的多特征融合图像描述方法。实践证明,本发明提出的方法和模型参数量适中,准确率较高,在Visual Genome和MSCOCO等公开数据集测试中都有良好的表现。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010444008.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





