[发明专利]一种指示对象的检测方法、装置以及相关设备有效
申请号: | 201810542990.X | 申请日: | 2018-05-30 |
公开(公告)号: | CN110555337B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 陈新鹏;马林;陈静远;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/20 | 分类号: | G06V20/20;G06V10/774;G06V10/82;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 指示 对象 检测 方法 装置 以及 相关 设备 | ||
1.一种指示对象的检测方法,其特征在于,包括:
获取给定图像和给定自然语句;
根据指示对象检测模型,对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标,所述指示对象检测模型为端到端的神经网络,所述神经网络以图像和自然语句作为输入,以指示对象的位置坐标作为输出;
所述指示对象检测模型包括多模态编码网络、多模态特征交互融合网络和指示对象定位网络;
所述多模态编码网络是以图像和自然语句为输入,以图像的特征和自然语句的特征为输出的第一神经网络;
所述多模态特征交互融合网络是以所述多模态编码网络的输出为输入,以经过注意力操作处理后的图像和自然语句的联合特征为输出的第二神经网络;所述多模态特征交互融合网络包括基于注意力机制的多层感知器神经网络,用于利用自然语句全局特征对图像局部特征进行注意力操作处理得到图像深层特征,以及利用图像全局特征对自然语句局部特征进行注意力操作处理得到自然语句深层特征,根据所述图像深层特征和所述自然语句深层特征合并生成图像和自然语句的联合特征;
所述指示对象定位网络是以所述多模态特征交互融合网络的输出为输入,以指示对象的位置坐标为输出的第三神经网络。
2.根据权利要求1所述的方法,其特征在于,所述根据指示对象检测模型,对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标,包括:
将所述给定图像和所述给定自然语句输入所述多模态编码网络,获得所述多模态编码网络的第一输出内容,所述第一输出内容包括所述给定图像全局特征、所述给定图像局部特征、所述给定自然语句全局特征和所述给定自然语句局部特征;
将所述第一输出内容输入所述多模态特征交互融合网络,获得所述多模态特征交互融合网络的第二输出内容,所述第二输出内容包括所述给定图像和所述给定自然语句的联合特征;
将所述第二输出内容输入所述指示对象定位网络,获得所述指示对象定位网络的第三输出内容,所述第三输出内容包括所述给定自然语句描述的指示对象在所述给定图像中的位置坐标。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述方法还包括:
构建指示对象初始检测模型,其中,所述指示对象初始检测模型包括初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络;
获取训练样本集中的训练样本,所述训练样本包括训练图像、训练自然语句以及指示对象的真实位置坐标;
将所述训练图像和所述训练自然语句输入所述指示对象初始检测模型中,依次经过所述初始多模态编码网络、所述初始多模态特征交互融合网络和所述初始指示对象定位网络的处理,获得所述初始指示对象定位网络的输出内容,所述输出内容包括所述训练自然语句描述的指示对象的预测位置坐标;
根据所述预测位置坐标和所述真实位置坐标构建损失函数;
根据所述损失函数调整所述指示对象初始检测模型的模型参数,根据满足训练条件时所调整的模型参数和所述指示对象初始检测模型的网络结构,确定所述指示对象检测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预测位置坐标和所述真实位置坐标构建损失函数,包括:
根据第一误差和第二误差,构建损失函数;其中,所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差;所述第二误差是指视觉注意力预测权重与视觉注意力真实权重之间的误差;所述视觉注意力预测权重是根据所述初始多模态特征交互融合网络对所述训练图像进行注意力操作处理时所得到的训练图像局部特征的权重;所述视觉注意力真实权重是根据所述真实位置坐标确定的训练图像局部特征的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810542990.X/1.html,转载请声明来源钻瓜专利网。