[发明专利]一种基于Swin-Transformer和Detr的快递面单识别方法在审
申请号: | 202310115341.2 | 申请日: | 2023-02-14 |
公开(公告)号: | CN116229041A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 陈松乐;曹泽;吴雨欣;黄茹玥;孙红波;尚磊 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06K7/14;G06V10/82;G06V10/24;G06V10/77;G06N3/0464;G06N3/0499 |
代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 曹洪 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 swin transformer detr 快递 识别 方法 | ||
1.一种基于Swin-Transformer和Detr的快递面单识别方法,其特征在于,包括以下步骤:
通过Swin-Transformer来提取快递面单图像的特征图;
通过Detr目标检测算法对快递面单条形码区域进行检测,根据类别是否为条形码以及包围框定位到快递面单条形码区域;
对定位到的快递面单条形码区域进行校正,得到修正后的条形码;
对修正后的条形码进行解码,最终得到快递面单的条形码解码结果。
2.如权利要求1所述的基于Swin-Transformer和Detr的快递面单识别方法,其特征在于:所述Detr目标检测算法,包括:
提取的特征图和特征图上每个点的位置编码输入到Transformer编码器得到长程依赖的特征序列;将所述特征序列与可学习的对象查询编码输入到Transformer解码器获得每个对象查询的特征向量;将所述特征向量输入到MLP预测头得到预测的快递面单条形码区域。
3.如权利要求1或2所述的基于Swin-Transformer和Detr的快递面单识别方法,其特征在于:所述通过Swin-Transformer来提取快递面单图像的特征图,Swin-Transformer的输入是快递面单彩色图像X=[H,W,3],其中H为图像的高度,W为图像的宽度,3为图像的通道数,Swin-Transformer共有四个阶段,每个阶段由无重叠窗口的多头注意力模块和移位窗口的多头注意力模块构成,其中每个阶段的操作是:对图像进行分块,并在通道方向展平,最后下采样得到特征图其中C的典型值为96。
4.如权利要求3所述的基于Swin-Transformer和Detr的快递面单识别方法,其特征在于:所述提取的特征图和特征图上每个点的位置编码输入到Transformer编码器得到长程依赖的特征序列x,其中Transformer编码器包括若干个层,每一层都由多头自注意力模块和前馈网络模块组成,每层均会进行残差连接和归一化。
5.如权利要求4所述的基于Swin-Transformer和Detr的快递面单识别方法,其特征在于:所述Transformer编码器操作过程为:
A1:输入的特征图F首先使用一个1×1的卷积将维度数从8C压缩至d,得到新的特征图F1=[H,W,d],然后将压缩后的特征图F1展平得到特征序列F2=[d,HW];
A2:对于输入序列的位置信息,通过不同频率的正弦和余弦函数来编码位置特征P;
A3:将F2和P相加,获得特征序列x,再通过三个权重矩阵Wq、Wk和Wυ分别转化为Query向量、Key向量和Value向量,点积Query向量和Key向量得到权重矩阵,权重矩阵乘以Value向量得到多头注意力输出向量,特征序列表示为:
其中,dk为Attention头的长度,Softmax为归一化指数函数;
A4:前馈网络模块包含两个线性层和一个非线性激活函数,具体计算过程为:
FFN(x)=ReLU(W1x+b1)W2+b2
其中,W1和W2是两个线性层的参数矩阵,b1和b2为线性层的偏置参数;
A5:残差连接和归一化的具体过程为:
x=LayerNorm(x+Operation(x))
其中,Operation(·)表示自注意力操作或前馈操作,LayerNorm(·)表示层归一化操作;
A6:最后编码器输出具有长程依赖的特征序列x。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310115341.2/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法