[发明专利]基于层内层间联合全局表示的图像描述方法在审

申请号：	202110128194.3	申请日：	2021-01-29
公开（公告）号：	CN112819013A	公开（公告）日：	2021-05-18
发明（设计）人：	孙晓帅;纪荣嵘;纪家沂	申请（专利权）人：	厦门大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	厦门南强之路专利事务所(普通合伙) 35200	代理人：	马应森
地址：	361005 福建***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于内层联合全局表示图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于层内层间联合全局表示的图像描述方法，涉及人工智能。步骤1，采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征；步骤2，将步骤1提取的特征输入训练好的神经网络，从而输出待描述图像的描述结果。利用Transformer结构的特点，显式建模层内‑层间联合全局特征，有效利用图片的全局特征，减少图像描述任务间存在的物体缺失和关系偏置，提升生成句子的准确性和全面性；具有很强的迁移性，能适用于任何一个基于Transformer结构的图像描述模型，改进模型性能；解决图像描述的目标缺失和关系偏置问题，拓展复杂多模态推理，自动生成描述，可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。

技术领域

本发明涉及人工智能领域中的图像自动描述，特别是涉及一种基于图片用自然语言对图像客观内容进行描述的基于层内层间联合全局表示的图像描述方法。

背景技术

图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同，图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。

早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现，直到近来受自然语言技术的启发，开始使用编码器-解码器框架，注意力机制以及以强化学习为基础的目标函数，该任务取得极大的进展。

Xu等人(Xu,K.；Ba,J.；Kiros,R.；Cho,K.；Courville,A.；Salakhudinov,R.；Zemel,R.；and Bengio,Y.2015.Show,attend and tell:Neural image captiongeneration with visual attention.In ICML)首次在图片描述任务中引入了注意力机制，用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后，很多工作都对注意力机制提出了改进。例如，Chen等人(Chen,L.；Zhang,H.；Xiao,J.；Nie,L.；Shao,J.；Liu,W.；andChua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR)提出了空间和通道注意力机制，用以选择显著的区域以及显著的语义模式；Lu等人(Lu,J.；Xiong,C.；Parikh,D.；and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel forimage captioning.In CVPR)提出了视觉哨兵的概念，用以决定下一步关注视觉信息还是文本信息，大大提高模型的精确度；Anderson等人(Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；and Zhang,L.2018.Bottom-up and top-downattention for image captioning and visual question answering.In CVPR)先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。Huang等人(Huang,L.；Wang,W.；Chen,J.；andWei,X.-Y.2019.Attention on Attention for ImageCaptioning.In ICCV)则首次采用了transformer类的框架图像描述任务中，从此Transformer模型开始成为该任务的主流模型。Zhu等人(Zhu,X.；Li,L.；Liu,J.；Peng,H.；and Niu,X.2018.Captioning transformer with stacked attention modules.AppliedSciences)和Cornia等人(Cornia,M.；Stefanini,M.；Baraldi,L.；and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR)都使用Transformer结构代替长短时循环网络并取得了最好性能。然而，这些模型并没有考虑如何利用全局特征来引导描述生成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门大学，未经厦门大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110128194.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多源协同特征的图像描述生成方法
下一篇：一种任务处理方法、终端和设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于层内层间联合全局表示的图像描述方法在审

专利文献下载