[发明专利]一种基于二维空间编码的图像描述方法有效
| 申请号: | 202010985641.2 | 申请日: | 2020-09-18 |
| 公开(公告)号: | CN112116074B | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 杨小宝;武君胜;屈佳欣;冯菲蓉 | 申请(专利权)人: | 西北工业大学;西安邮电大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06T9/00 |
| 代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 吴林 |
| 地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 二维 空间 编码 图像 描述 方法 | ||
本发明涉及图像描述技术领域,公开了一种基于二维空间编码的图像描述方法,包括以下步骤:S1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;S3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列,这种基于二维空间编码的图像描述方法,能够解决图像空间位置信息丢失的问题,与现阶段一维序列不添加图像位置信息的方法相比较,图像描述效果好。
技术领域
本发明涉及图像描述技术领域,特别涉及一种基于二维空间编码的图像描述方法。
背景技术
随着人工智能的不断发展,计算机视觉成为人工智能领域最重要的研究方向之一,自从2006年Hinton教授在《科学》发表对于深层神经网络的训练方法以后,迎来了深度学习的蓬勃发展,也使得基于深度学习的计算机视觉成为目前人工智能最活跃的领域。视觉技术不仅需要计算机可以代替人的眼睛来“观察”事物,还必须像人的大脑一样具有“理解”事物的能力,它的挑战是使计算机和机器人开发成具有与人类水平相当的视觉能力,从而可以帮助人处理一些复杂的技术应用。当前,基于深度学习的计算机视觉被广泛应用于各个行业,其中包括智慧医疗、公共安防、无人机与自动驾驶等领域,如农产品品质检测、作物识别与分级、质量检测、地标跟踪等都为人类生活提供了越来越多的便利。图像描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的综合研究方向,它类似于将一幅图片翻译为一段描述文字,该任务对于人类来说非常容易,但对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的语义关系,所以也是当前人工智能领域跨学科的研究重点和难点。图像描述是指给定一张图像,通过相应的算法不仅要理解图上有什么物体,而且要理解物体之间的相互关系,最后要用文字将其描述出来,就类似于小学生的“看图说话”题。随着机器翻译和大数据的兴起,出现了Image Caption的研究浪潮。当前大多数的Image Caption方法基于encoder-decoder模型,其中encoder一般为卷积神经网络(CNN),利用最后全连接层或者卷积层的特征作为图像的特征,decoder一般为递归神经网络(RNN),主要用于图像描述的生成。现在,大部分国内外知名团队在对图像描述任务进行改进时都会对“encoder-decoder”这一模型进行深入研究。为了更好的得到图像的高层语义信息,对原有的卷积神经网络进行改进,加强encoder阶段图像特征的提取;也会依据机器翻译领域的启发,对原有的递归神经网络进行改进,使得decoder模型的语言表达能力更为准确和丰富。
在计算机视觉领域中,输入一幅图像中的各个目标之间固有的几何位置结构有利于对视觉信息进行推理,在图像理解的相关任务上有至关重要的影响,比如对于一幅图片中的两个目标而言,如果知道两个目标之间的相对位置关系就可以进一步提高计算机对整幅图像的理解,从而提取出更丰富的图像特征。对于图像描述而言,经过编码器对图片进行特征提取的过程,图片的相对位置关系没有发生变化,所以一般的编码器工作都没有特意给图片中的每个像素添加相应的空间位置信息。图像描述本来就是一项跨领域的研究,要将二维特征图转换成解码器能够识别的一维特征序列表示,但由于特征图没有特意标注空间位置信息,在转换成一维序列之后会打乱图像中原有每个像素点的空间位置关系,使得图像本身的位置信息丢失。
发明内容
本发明提供一种基于二维空间编码的图像描述方法,能够解决图像空间位置信息丢失的问题。
本发明提供了一种基于二维空间编码的图像描述方法,包括以下步骤:
S1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;
S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;
S3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西安邮电大学,未经西北工业大学;西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010985641.2/2.html,转载请声明来源钻瓜专利网。





