[发明专利]基于位置引导Transformer的图像描述生成方法、装置和计算机设备在审

专利信息
申请号: 202210550930.9 申请日: 2022-05-18
公开(公告)号: CN114782698A 公开(公告)日: 2022-07-22
发明(设计)人: 杨有;胡峻滔;姚露;安永志;潘龙越;郝子娴 申请(专利权)人: 重庆师范大学
主分类号: G06V10/40 分类号: G06V10/40;G06V10/82;G06N3/04;G06N3/08
代理公司: 北京康达联禾知识产权代理事务所(普通合伙) 11461 代理人: 何浩
地址: 400000 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 位置 引导 transformer 图像 描述 生成 方法 装置 计算机 设备
【权利要求书】:

1.一种基于位置引导Transformer的图像描述生成方法,其特征在于,包括:

获取图像,并提取所述图像的网格特征;

将所述网格特征进行扁平化处理,得到输入向量;

根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码;

将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句;其中,所述预设的位置引导Transformer模型包括编码器和解码器,所述编码器和解码器均由多个堆叠的注意力块组成,所述编码器的每个注意力块包括双位置注意力层和前馈神经网络,所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。

2.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤,包括:

采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码;其中,计算公式包括:

其中,APE(i,j)表示绝对位置编码,i,j是一个网格特征的行嵌入和列嵌入,[PEi;PEj]表示拼接,p表示行或列的位置,m表示p的维度,dmodel表示所述位置引导Transformer模型的维度;

计算所述网格特征的平滑相对位置编码;其中,计算公式包括:

其中,表示平滑相对位置编码,表示符号函数,cx和cy表示网格特征的中心坐标,w表示网格特征的宽度,h表示网格特征的高度;

将所述平滑相对位置编码投影到其中,公式为:

其中,FC(·)表示全连接层对应的映射函数,Emb表示原始Tansformer模型中对应的嵌入函数,σ为ReLU激活函数。

3.根据权利要求2所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句的步骤,包括:

将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果;

将所述编码结果输入所述解码器中,并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后,得到描述所述图像的语句。

4.根据权利要求3所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果的步骤中,对于第(l+1)层:

将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算,得到第一计算结果;其中,计算公式为:

MHBPA(Fl,Fl,Fl,APE,RPE)=Concat(head1,…,headh)WO

headi=BPA(Fl,Fl,Fl,APE,RPE)

其中,表示输入向量,表示网格特征的绝对位置编码,RPE∈RN×N表示网格特征的相对位置编码,MHBPA(Fl,Fl,Fl,APE,RPE)表示第一计算结果Hl+1

将所述第一计算结果Hl+1进行层归一化得到注意力结果其中,计算公式为:

Hl+1=MHBPA(Fl,Fl,Fl,APB,RPE)

将所述注意力结果输入所述编码器的前馈神经网络进行计算,得到第二计算结果Fl+1;其中,计算公式为:

将第二计算结果Fl+1输入第(l+2)层进行计算,以此类推,直到所有双位置注意力层均计算后,完成多级编码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210550930.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top