[发明专利]一种红外与可见光图像文本描述生成方法有效
申请号: | 202110501891.9 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113343966B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 黄珺;马泳;马佳义;樊凡;王旭;张灿 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V10/143 | 分类号: | G06V10/143;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 红外 可见光 图像 文本 描述 生成 方法 | ||
本发明公开了一种红外与可见光图像文本描述生成方法,包括以下步骤:1)采集n对分辨率大小和场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本;2),构建红外与可见光图像文本描述生成网络,包括红外与可见光图像特征提取的编码模型、由前馈神经网络构成的特征融合模型,以及加性多头注意力机制的图像特征解码模型;3)训练文本描述生成网络;4)将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。本发明方法可有效利用红外图像和可见光图像提供的互补视觉特征,弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。
技术领域
本发明属于计算机视觉领域,具体涉及一种红外与可见光图像文本描述生成方法。
背景技术
随着近年来人工智能领域中机器学习特别是深度学习技术的迅猛发展,计算机视觉作为一门研究如何更好地理解和分析图像的科学,在数据及算力的推动下也呈现出飞跃式的进步。例如在图像分类任务中,运行深度学习算法的机器的对物体种类识别的准确率已经超过人类;在目标检测与定位任务中,基于深度学习的算法已广泛应用于智能视频监控,机器人导航和基于内容的图像检索等领域。
图像描述生成任务的本质是完成场景信息从图像域到文本域的转换。目前图像描述生成领域中的研究都是围绕可见光图像展开的,然而单一光学谱段的成像设备可能在一些环境下无法完整的获取场景信息。例如,当关注的目标或场景缺乏良好的光线照射或者被遮挡时,普通的可见光相机将无法捕获到目标或相关场景的有用信息。尤其是在军事战场环境中,重要设施目标常常需要通过伪装式遮挡以躲避侦察,以及军事计划可能借助夜晚黑暗的保护开展行动。如果使用普通的可见光成像设备进行场景信息的采集,图像描述生成算法后续就无法生成正确的描述语句。为了在极端成像条件下也能够获取全面的场景信息,有必要结合使用工作在不同谱段的成像设备。例如在上述情景中,可以使用红外相机与可见光相机同时对场景成像。其中红外相机通过捕捉物体发出的热辐射信息并根据其强度大小进行成像,这样的特点使其具备全天候的工作能力而不受遮挡和光照条件变化的影响。因此研究多源传感器在图像描述生成任务中的应用也具有非常重要的意义。
发明内容
针对现有技术的不足,本发明提出一种红外与可见光图像文本描述生成方法。本方法建立了了一种联合红外可见光特征的双输入图像描述网络,能够有效地结合红外和可见光两个谱段的视觉特征信息。
本发明的技术方案包括以下步骤:
步骤1,建立数据集,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合称为“字典”;
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1,多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的深层语义特征vIR和vVIS;
步骤2.2,场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息,获得融合语义特征vF;
步骤2.3,建立加性多头注意力机制的图像特征解码模型,对融合语义特征vF进行处理,用于输出描述文本;
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
进一步的,步骤1的具体实现包括如下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110501891.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序