[发明专利]基于外部知识和目标间关系的图像描述生成方法有效
申请号: | 202110982666.1 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113609326B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 李志欣;陈天宇;张灿龙 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06V10/74;G06V10/77;G06V10/774;G06V10/764;G06V10/82;G06N3/0499;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 外部 知识 目标 关系 图像 描述 生成 方法 | ||
本发明公开了一种基于外部知识和目标间关系的图像描述生成方法,包括如下步骤:1)数据集分类;2)外部语义知识提取阶段;3)Faster R‑CNN提取目标区域特征阶段;4)编码器处理输入特征阶段;5)解码器处理来自编码器的输出阶段;6)测试图像描述句子阶段。这种方法融合进了图像中不同目标间的视觉关系,图像位置关系以及语义关系,通过这些目标间关系以及人类常识来挖掘了图像中更高层更抽象的特征,从而生成更生动准确的图像描述句子,使得多角度关系计算能使得目标间关系挖掘更充分合理。
技术领域
本发明涉及图像描述生成技术领域,具体涉及一种基于外部知识和目标间关系的图像描述生成方法。
背景技术
随着网络和数码设备的普及,各种媒体图像数据飞速增长,图像自动描述生成有着十分广阔的应用前景,例如幼儿早教,盲人视觉等等。并且其涉及计算机视觉和自然语言处理两个领域,具有十分重要的研究意义。
图像描述生成自上个世纪60年代开始就成为非常活跃的研究领域,早期应用比较广泛的技术主要包括基于检索的方法和基于模板的方法。基于检索就是给定某一副图像,从现有的图像库中找到与其相似的图像及其描述句子,其缺陷也十分明显,就是对于新的图像鲁棒性很差。基于模板的方法就是将句子先划分为例如主语,谓语,宾语之类的模板,让后根据图像内容填充句子的内容,该方法的主要缺陷是生成的句子比较死板,不够灵活。
后来随着深度学习的快速发展,出现了很多将深度学习方法应用到图像描述生成的创新性方法。受到自然语言处理的启发,李飞飞等人在2015年将用于NLP领域的编码器-解码器模型用于图像描述生成中提出了NIC模型,该模型将图像信息编码成一个固定长度的向量,让后传递给解码器来逐个生成单词。但是并不是在生成所有单词的时候都需要整幅图像的信息,为了更好地提炼出图像的特征用于句子生成,后面又将注意力机制融合进了NIC模型中,这使得模型可以在生成不同的单词的时候关注图像最有用的那部分区域,该模型不仅大幅提升了模型的性能表现,还掀起了一股将注意力机制融入图像描述工作的热潮。后面许多工作都是在此基础上做的改进,比如出现了将图像中的目标语义信息作为注意力的分配对象而提出的语义注意力机制。为了克服之前注意力机制大多以图像的均匀分块为单位来进行注意力权重的分配,后人提出了结合自下而上和自顶而下的注意力机制,其核心创新点是先利用例如Faster R-CNN的目标检测模块提取出目标区域特征,然后在自下而上机制中以这些目标特征为单位分配注意力,在自顶而下机制中以整幅图像的均匀分块为单位分配注意力,解码器部分采用了双层的长短期记忆单元来将两种机制生成的隐藏层状态结合起来,这一工作被认为是图像描述生成中又一里程碑式的工作。
后来,随着Transformer模型在NLP领域流行起来,相继出现了很多基于Transformer的图像描述方法,并且表现出了比大多传统方法都要好的性能,其相较于用于自然语言处理的Transformer模型,在输入位置编码和编码器部分的注意力机制模块做出了改进来更好地适应以图像为输入的模型。
但是目前的方法并不能将图像目标间关系这一抽象高级的特征融合进注意力机制中,根据人的常识,一幅图像中目标间的关系也包含着什么重要的信息,比如当一幅图像包含足球的时候,大概率在足球周围会有人出现,如何将这种对于句子生成具有什么重要的指导意义的语义信息利用起来是一个十分值得研究的问题。
发明内容
本发明针对传统图像描述生成方法无法有效利用到图像目标间的语义关系这一缺陷,提出了一种基于外部知识和目标间关系的图像描述生成方法。这种方法融合进了图像中不同目标间的视觉关系,图像位置关系以及语义关系,通过这些目标间关系以及人类常识来挖掘了图像中更高层更抽象的特征,从而生成更生动准确的图像描述句子,使得多角度关系计算能使得目标间关系挖掘更充分合理。
实现本发明目的的技术方案是:
基于外部知识和目标间关系的图像描述生成方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110982666.1/2.html,转载请声明来源钻瓜专利网。