首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于注意力机制的图像-文本数据融合方法和系统有效

申请号：	201811644583.6	申请日：	2018-12-29
公开（公告）号：	CN109785409B	公开（公告）日：	2020-09-08
发明（设计）人：	刘进;郭峻材;沈晨凯;崔晓晖;储玮;周平义;余啸;付忠旺	申请（专利权）人：	武汉大学
主分类号：	G06T11/60	分类号：	G06T11/60;G06K9/62
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制图像文本数据融合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的图像-文本数据融合方法，其特征在于，包括如下步骤：

步骤S1，收集特定任务下的图像和文本数据集；

步骤S2，对收集到的图像和文本数据集进行预处理，作为训练集；

步骤S3，构建基于注意力机制的图像-文本数据融合网络；

步骤S3中构建基于注意力机制的图像-文本数据融合网络，其输入包括预处理后的图像数据和文本数据，该融合网络的具体实现方式如下，

(3a)对输入的文本数据，结合词向量和位置编码生成文本中的每个词项的编码向量；具体地，对于文本中位置i的词项w_i，通过词向量层生成对于应的D维词向量v_i，而该词项对应的D维位置编码如下：

其中，p_i,2d和p_i,2d+1分别表示位置编码p_i中第2d和2d+1维的数值；

根据该词项的词向量v_i和位置编码p_i，其编码向量h_i计算如下：

h_i＝v_i+p_i；

(3b)对输入的图像数据，使用二维滑动窗口以一定的步长对每个通道的图层进行遍历，提取每个窗口的图层数据块并进行扁平化操作，生成窗口向量；

(3c)对每个窗口向量，利用注意力机制将文本中所有词项的编码向量与其进行融合，得到融合后的窗口向量；具体地，对于窗口向量s_t和文本中N个词项的编码向量序列[h₁,h₂,...,h_N]，基于注意力机制，融合后的窗口向量计算如下：

其中，W₁是需要训练的参数矩阵，权重α_t,i计算如下：

其中，关联度u_t,i计算如下：

u_t,i＝y^T·tanh(W₂·h_i+W₃·s_t)，

其中，W₂和W₃是需要训练的参数矩阵，y是需要训练的参数向量；

(3d)重构融合后的窗口向量的形状，得到与滑动窗口尺寸相同的图层数据块，然后合并所有通道下的图层数据块，得到融合后的图像数据块；

(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射，得到的特征图即为图像和文本最终融合了的数据；具体地，对于一个图像数据块u'_t和一个卷积核k_j，对应特征值F_t,j的特征映射计算式如下：

F_t,j＝∑(u'_t⊙k_j)，

其中，⊙表示逐点乘积；

步骤S4，根据任务构建输出网络，连接于数据融合网络之后，形成训练网络；

步骤S5，利用训练集对训练网络进行训练；

步骤S6，对待融合的图像和文本数据集进行预处理；

步骤S7，将预处理后的图像和文本数据输入训练好的数据融合网络，输出即为图像和文本的融合数据。

2.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法，其特征在于：所述步骤S2和S6中，对图像的预处理是指对图像数据进行去均值化操作，对文本的预处理是指对文本的分词操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811644583.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种填图方法、装置及电子设备
下一篇：一种图层合并方法、装置及相关组件

同类专利

专利分类

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T11-00 2D［二维］图像的生成
G06T11-20 .根据基本元素绘图，例如：直线或圆
G06T11-40 .通过添加表面特征填充平面，例如：色彩或纹理
G06T11-60 .编辑图形和文本，组合图形或文本
G06T11-80 .使用诸如鼠标、光笔、键盘上的方向键等手输入设备建立或修改手绘或手写图像

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top