[发明专利]一种基于全局特征感知的目标检测方法及系统有效
申请号: | 202110954164.8 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113673420B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 张新钰;王力;李骏;曾维佳;刘伟;杨磊 | 申请(专利权)人: | 清华大学 |
主分类号: | G06V20/58 | 分类号: | G06V20/58;G06V10/26;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 全局 特征 感知 目标 检测 方法 系统 | ||
1.一种基于全局特征感知的目标检测方法,所述方法包括:
实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;
所述全局感知特征提取器包括:图像切分模块、Transfor mer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
2.根据权利要求1所述的基于全局特征感知的目标检测方法,其特征在于,所述图像切分模块的具体实现过程为:
将原始监控图像切分为图像块pi,(H,W)表示原始监控图像的分辨率,C为图像的通道数,其中S2表示图像块大小,N表示图像块的数量并且将图像块pi铺展成一维向量后使用全连接层FC(·)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:
Emb(i)=FC(Flatten(pi))+Lpi
其中,Flatten(pi)为将图像块pi铺展成一维向量;Lpi为一个可学习的变量,以表征图像块的位置编码信息;
将线性嵌入序列[Emb(0),Emb(1),…,Emb(N)]输出至Transfor mer编码器。
3.根据权利要求2所述的基于全局特征感知的目标检测方法,其特征在于,所述Transfor mer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;
对于第l个块,其输入向量为yl-1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),…,Emb(N)];上一个块的输出为下一个块的输入;
第一层归一化单元对输入向量yl-1进行层归一化处理得到向量X=LN(yl-1);
多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SAm为:
其中,和均代表线性转换矩阵,代表第m个单头的矩阵的维度;
将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵WO得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,…,SAM]Wo
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y′l:
y′l=MHA(X)+yl-1
第二层归一化单元,用于对y′l进行层归一化处理得到向量LN(y′l);
多层感知机,用于对向量LN(y′l)进行处理,输出处理结果:MLP(LN(y′l))
第二加法单元,用于将多层感知机的输出与y′l进行相加:
yl=MLP(LN(y′l))+y′l
则第l个块的输出为yl,第L个块的输出yL为Transfor mer编码器的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954164.8/1.html,转载请声明来源钻瓜专利网。