[发明专利]基于层内层间联合全局表示的图像描述方法在审
申请号: | 202110128194.3 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112819013A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 孙晓帅;纪荣嵘;纪家沂 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内层 联合 全局 表示 图像 描述 方法 | ||
基于层内层间联合全局表示的图像描述方法,涉及人工智能。步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。利用Transformer结构的特点,显式建模层内‑层间联合全局特征,有效利用图片的全局特征,减少图像描述任务间存在的物体缺失和关系偏置,提升生成句子的准确性和全面性;具有很强的迁移性,能适用于任何一个基于Transformer结构的图像描述模型,改进模型性能;解决图像描述的目标缺失和关系偏置问题,拓展复杂多模态推理,自动生成描述,可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及一种基于图片用自然语言对图像客观内容进行描述的基于层内层间联合全局表示的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现,直到近来受自然语言技术的启发,开始使用编码器-解码器框架,注意力机制以及以强化学习为基础的目标函数,该任务取得极大的进展。
Xu等人(Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image captiongeneration with visual attention.In ICML)首次在图片描述任务中引入了注意力机制,用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后,很多工作都对注意力机制提出了改进。例如,Chen等人(Chen,L.;Zhang,H.;Xiao,J.;Nie,L.;Shao,J.;Liu,W.;andChua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR)提出了空间和通道注意力机制,用以选择显著的区域以及显著的语义模式;Lu等人(Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel forimage captioning.In CVPR)提出了视觉哨兵的概念,用以决定下一步关注视觉信息还是文本信息,大大提高模型的精确度;Anderson等人(Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;and Zhang,L.2018.Bottom-up and top-downattention for image captioning and visual question answering.In CVPR)先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。Huang等人(Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attention for ImageCaptioning.In ICCV)则首次采用了transformer类的框架图像描述任务中,从此Transformer模型开始成为该任务的主流模型。Zhu等人(Zhu,X.;Li,L.;Liu,J.;Peng,H.;and Niu,X.2018.Captioning transformer with stacked attention modules.AppliedSciences)和Cornia等人(Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR)都使用Transformer结构代替长短时循环网络并取得了最好性能。然而,这些模型并没有考虑如何利用全局特征来引导描述生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110128194.3/2.html,转载请声明来源钻瓜专利网。