[发明专利]基于层内层间联合全局表示的图像描述方法在审

申请号：	202110128194.3	申请日：	2021-01-29
公开（公告）号：	CN112819013A	公开（公告）日：	2021-05-18
发明（设计）人：	孙晓帅;纪荣嵘;纪家沂	申请（专利权）人：	厦门大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	厦门南强之路专利事务所(普通合伙) 35200	代理人：	马应森
地址：	361005 福建***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于内层联合全局表示图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于层内层间联合全局表示的图像描述方法，其特征在于包括如下步骤：

1)采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征；

2)将步骤1)提取的特征输入训练好的神经网络，从而输出待描述图像的描述结果；其中，神经网络的全局损失函数通过如下方法获得；

(1)对训练集中的文本内容进行预处理，得到句子序列；对训练集中的图像，采用目标检测器提取若干个候选区，并提取各个候选区所对应的特征V＝{v₁,v₂,…,v_N}，其中，v_i∈R^d，i＝1,2,...,N，d为各个特征向量的维度，N为候选区的数量；

(2)将特征V送入全局加强编码器，借助多头注意力机制将候选区特征进一步编码，得到对应的隐藏特征以及层内-层间联合全局特征；

(3)将前述的隐藏特征加入到自适应解码器中，同时用层内-层间联合全局特征进行跨模态特征的融合，借助多头注意力机制的特性修正多模态特征，生成当前阶段的词；

(4)迭代生成整个句子，并定义生成句子的损失函数。

2.如权利要求1所述基于层内层间联合全局表示的图像描述方法，其特征在于在步骤1)中，所述目标检测器的训练方法是：目标检测器采用Faster R-CNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

3.如权利要求1所述基于层内层间联合全局表示的图像描述方法，其特征在于在步骤(1)中，所述对训练集中的文本内容进行预处理，得到句子序列的具体过程是：首先对训练集中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，对于得到的若干单词，剔除数据集描述中出现次数小于阈值的单词，使用“UNK”进行替代；最后，句子的开头和结尾分别加入开始符“BOS”和结束符“END”。

4.如权利要求1所述基于层内层间联合全局表示的图像描述方法，其特征在于在步骤(2)和(3)中，所述多头注意力机制相关过程如下：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i^Q,KW_i^K,VW_i^V),

其中，Q是一个具有n_q个索引向量的矩阵，K和V分别是具有n_k个键向量和值向量的矩阵，这些向量的维度都相同，用以作为缩放因子，softmax函数为归一化指数函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门大学，未经厦门大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110128194.3/1.html，转载请声明来源钻瓜专利网。