[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效
申请号: | 201910544985.7 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110276396B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 何立火;张怡;高新波;路文;屈琳子;钟炎喆;邢志伟;李琪琦 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 物体 显著 跨模态 融合 特征 图片 描述 生成 方法 | ||
本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R‑CNN+ResNet‑101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。
技术领域
本发明属于图像处理技术领域,更进一步是一种图片描述生成方法,可用于社交多媒体检索、盲人读图和辅助视频监控。
背景技术
随着社交多媒体的发展,以图片为载体的信息传递方式占越来越重要的比重。图片描述生成利用图像中丰富的视觉信息,生成语义明确、语法准确的文字描述,在很大程度上可以完善社交多媒体网络。
相较于传统的计算机视觉问题,图片描述生成问题涉及图片与自然语言多模态信息的融合。这是人工智能时代发展的必然产物,它教会机器‘交流’。
目前,图片自然语言生成主要包括两类:一类是基于模板或者检索的传统图片描述生成方法,第二类方法是基于深度学习的图片描述生成方式。其中:
基于模板的方法,是一类利用图片信息填充有固定格式的语句模板生成图片描述的方法。2011年,Siming Li等人基于此思路进行研究,提出一种利用图片中物体信息,生成位置短语填补模板生成图片描述的方法。
基于检索的图片描述生成方法,检索数据库中的图片,并根据图片相似性使用已有的语句生成图片的描述。传统的图片描述生成方式生成的语句虽然方法简单,但其生成语句结构单一,描述刻板,并且准确率不高。
近几年,基于深度学习的图片描述生成方法逐渐被广泛应用。编码器-译码器网络结构是基于深度学习的图片描述生成方法的一种通用结构。编码器网络通常指的是卷积神经网络,卷积神经网络的作用是提取图片中丰富的视觉语义信息。译码器网络通常使用循环神经网络,循环神经网络利用编码器所提供的信息时序地生成准确的自然语言描述。谷歌研究院首先提出使用这种结构的方法,利用卷积神经网络得到的图片的特征向量编码图片视觉信息,利用长短时记忆网络生成相应的文字描述。在此之后,为使网络更加接近人类视觉系统,Kelvin Xu等在编码器-译码器网络中加入注意力模块模拟人眼视觉注意力机制。注意力机制的引入使得网络在生成图片描述时选择性关注图片的不同区域,使得描述更准确。另外考虑到生成描述时存在非视觉词语例如冠词、介词等,在生成这类词语时并不需要图片信息的辅助。基于此思路,Jiasen Lu等提出了一种基于哨兵的图片描述生成方式,主要思想是利用哨兵决定是否需要图片信息辅助描述生成。目前基于深度学习的方法虽然是图片描述生成领域的主流方法,但它仍然存在需要改进的地方。缺点之一,在提取图片特征的时候,物体类别信息不够明确,导致描述类别时不够准确。另外在生成描述的过程中,网络需要涉及图片和文字处于不同模态的两类信息,其跨模态融合问题有待进一步研究。
综上所述,现有技术存在两方面问题:一是在生成描述时不能准确识别图片中的物体,二是在生成描述时不能充分利用网络中的文字特征和图片视觉特征信息,造成生成的图片描述存在语义不明确,语句不流畅的不足。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于物体显著性和跨模态特征融合的图片描述生成方法,以通过利用物体类别信息,并改进图片特征信息与文字特征的跨模态融合,提高生成语句物体描述的准确性和语言的流畅性。
为实现上述目的,本发明目的技术方案如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910544985.7/2.html,转载请声明来源钻瓜专利网。