[发明专利]基于位置引导Transformer的图像描述生成方法、装置和计算机设备在审
| 申请号: | 202210550930.9 | 申请日: | 2022-05-18 |
| 公开(公告)号: | CN114782698A | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 杨有;胡峻滔;姚露;安永志;潘龙越;郝子娴 | 申请(专利权)人: | 重庆师范大学 |
| 主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京康达联禾知识产权代理事务所(普通合伙) 11461 | 代理人: | 何浩 |
| 地址: | 400000 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 位置 引导 transformer 图像 描述 生成 方法 装置 计算机 设备 | ||
1.一种基于位置引导Transformer的图像描述生成方法,其特征在于,包括:
获取图像,并提取所述图像的网格特征;
将所述网格特征进行扁平化处理,得到输入向量;
根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码;
将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句;其中,所述预设的位置引导Transformer模型包括编码器和解码器,所述编码器和解码器均由多个堆叠的注意力块组成,所述编码器的每个注意力块包括双位置注意力层和前馈神经网络,所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。
2.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤,包括:
采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码;其中,计算公式包括:
其中,APE(i,j)表示绝对位置编码,i,j是一个网格特征的行嵌入和列嵌入,[PEi;PEj]表示拼接,p表示行或列的位置,m表示p的维度,dmodel表示所述位置引导Transformer模型的维度;
计算所述网格特征的平滑相对位置编码;其中,计算公式包括:
其中,表示平滑相对位置编码,表示符号函数,cx和cy表示网格特征的中心坐标,w表示网格特征的宽度,h表示网格特征的高度;
将所述平滑相对位置编码投影到其中,公式为:
其中,FC(·)表示全连接层对应的映射函数,Emb表示原始Tansformer模型中对应的嵌入函数,σ为ReLU激活函数。
3.根据权利要求2所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句的步骤,包括:
将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果;
将所述编码结果输入所述解码器中,并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后,得到描述所述图像的语句。
4.根据权利要求3所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果的步骤中,对于第(l+1)层:
将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算,得到第一计算结果;其中,计算公式为:
MHBPA(Fl,Fl,Fl,APE,RPE)=Concat(head1,…,headh)WO
headi=BPA(Fl,Fl,Fl,APE,RPE)
其中,表示输入向量,表示网格特征的绝对位置编码,RPE∈RN×N表示网格特征的相对位置编码,MHBPA(Fl,Fl,Fl,APE,RPE)表示第一计算结果Hl+1;
将所述第一计算结果Hl+1进行层归一化得到注意力结果其中,计算公式为:
Hl+1=MHBPA(Fl,Fl,Fl,APB,RPE)
将所述注意力结果输入所述编码器的前馈神经网络进行计算,得到第二计算结果Fl+1;其中,计算公式为:
将第二计算结果Fl+1输入第(l+2)层进行计算,以此类推,直到所有双位置注意力层均计算后,完成多级编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210550930.9/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





