[发明专利]基于编码识别的机柜智能资产盘点方法在审

专利信息
申请号: 202011124735.7 申请日: 2020-10-20
公开(公告)号: CN112364709A 公开(公告)日: 2021-02-12
发明(设计)人: 王剑锋;张智;李澎林 申请(专利权)人: 浙江工业大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34;G06N3/04;G06N3/08
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 编码 识别 机柜 智能 资产 盘点 方法
【权利要求书】:

1.基于编码识别的机柜智能资产盘点方法,包括以下步骤:

步骤1编码标签图片预处理;

摄像头获取的带标识的文本标签是带大文本、小文本、弯曲文本、矩形文本的图像,图像的标注采用OCR的标注方式,每个文本框包含四个坐标八个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)和一个标签的形式;这些作为正样本的训练图像,图像中存在一个和多个的文本标签;

对标注好的机柜标签图片进行数据扩充处理;包括将图片随机旋转(-10°到10°这个区间),对图片进行随机裁剪和随机翻转;为了提高网络训练效率,将所有处理过的图像重新调整到640x640的大小;

步骤2构建与改进PSENet网络,包括特征提取模块、分割头模块以及后处理模块;

步骤2.1构建特征提取模块;

构建网络的骨干,用作特征提取,使用卷积网络模型resnet18网络,将带文本标签的图像用作输入,经过骨干网得到特征图;resnet18表示包括卷积和全连接层在内带有权重的18层网络,不包括池化层和归一化层,网络首先经过一个输入为3通道输出为64通道的卷积层,通过四个block结构分别输出尺度大小不同的特征图,resnet18网络使用的是两个3x3卷积的Basicblock,保存输入等待数据经过两层卷积后再相加,最后加一个Relu函数,让特征更具有代表性;图片经过网络输出四种尺度的图片和通道,相对于输入图像有4、8、16、32像素的跨距,每一种尺度的图片都包含着不同的语义信息;底层的语义信息比较少,但是目标位置准确,高层的语义信息比较丰富,但是目标位置比较粗略;

步骤2.2对骨干网进行迁移学习;

对resnet18网络做迁移学习;为了得到更多的关于图片的语义信息,将原resnet18网络的末尾的线性层去掉,对layer3返回的特征图做反卷积处理还有最大池化,放大图像为最终的结构输入特征图的大小,与F特征图进行横向拼接,以获得最终更加丰富信息的多特征图,冻结模型里预先训练过的未更改层级的权重,网络训练时将更新新添加层的权重;

步骤2.3分构建割头模块;

为了更好的更快的融合高底层语义信息,使用三个FPEM和一个FFM来构建增强的特征金字塔,替换掉原本的FPN特征金字塔结构;

步骤2.3.1构建FPEM模块;

FPEM呈级联结构而且计算量比FPN小,FPEM是一个U型模块,包括两个阶段,即上尺度增强和下尺度增强;上尺度增强作用于输入特征金字塔;在这一阶段,对32、16、8、4像素的特征图进行迭代增强;在降尺度阶段,输入由上尺度增强生成的特征金字塔,从4步到32步进行增强;最终由下尺度增强输出的特征金字塔作为FPEM的最终输出;

同时,下尺度增强的输出特征金字塔是FPEM的最终输出;使用可分离卷积代替常规卷积来构建连接部分;因此,FPEM能够以较小的计算开销扩大感受野和加深网络;

步骤2.3.2构建FFM模块;

FFM特征融合模块用于融合不同深度的特征金字塔F1、F2、…、Fn,首先通过元素叠加的方法将对应的尺度特征图进行组合,然后,将相加后的特征图进行上采样,拼接成最终的只有4×128个通道的特征图F;

步骤2.4构建网络的后处理模块;

步骤2.4.1生成后处理的模块文本实例核及GroundTruth;

网络模型的后处理模块是对分割头模块得到的特征图F进行处理,特征图F经过3x3的卷积还有归一层和Relu层将特征层的通道数量变为256之后,再送入多个1x1的卷积上采样,最后输入到Sigmod层得到最终的6张图片S1...S6,维度大小是[B,C,H,W],其中C是已知的需要的6个核数量,B表示目前有多少张图,H和W分别表示图的高度与宽度;利用广度优先算法从S1开始到S6结束,逐渐扩展直到获取到最终的文本实例,S1的连通域的数量已经确定,是预测的图片中目标文字的核心区域;

每个核在扩展的过程中都需要由一个完整的文本实例缩放、伸缩形成的相应的GroundTruth;ki为第i个核,kn是第n个核,di为ki与kn边缘之间的距离,为了依次获得图中的由小到大的文本实例核,使用Vatti clipping算法来缩小多边形ki的像素,得到缩小多边kn,随后,每个缩小的多边形kn被转换成一个0/1的二进制掩码,用于分割标签的真实区域(GroundTruth);A(ki)是多边形ki的面积,P(ki)是多边形ki的周长,ri为kn与ki之间的比例,在ri的计算公式中x为缩小比例,取值范围在(0,1];y为文本分割实例的数量,即”核“的数量,计算公式为:

步骤2.4.2扩展文本实例核;

对于预测的n个分割实例S1...Sn,为了得到最终的检测结果,采用渐进式尺度扩展算法,其中S1代表最小核的分割结果,逐步判断和c相邻的像素是否在S2中,如果在,则将其合并到b中,从而得到合并后的结果c;扩展基于广度搜索算法,该算法从S1的像素开始,然后迭代地合并相邻的GroundTruth的文本像素,直到发现最大的核,算法在实践中处理冲突的原则是,混淆的像素只能在先到先得的基础上由一个单一内核合并;

步骤2.4.3构建网络训练时的损失函数;

网络训练文本实例图的损失函数可以写成:

Loss=μLossc+(1-u)Losss (3)

Lossc和Losss分别表示完整文本实例和收缩实例的损失,μ是为了平衡两者的值,设置为0.7,Lossc中的Sn代表尺度最大的分割区域,Gn代表伸缩最大groundtruth,m的取值采用在线难例挖掘(online hard example miniing,OHEM)的方式生成,也是一个0/1的掩码;OHEM算法的核心思想是根据输入样本的损失进行筛选,筛选出难例,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练,具体到该模型中,负样本与正样本的比率为3,被选中的像素点取值为1,未选中的取值为0;Lossc作用是用来确定是文本区域还是非文本区域;

Lossc=1-D(Sn·m,Gn·m) (4)

从Losss可知该损失函数与那些缩放的文本从1到n-1的区域有关系其中wx,y代表Sn中文本区域的mask,Sn,x,y代表Sn中(x,y)的像素值;

D代表dice coefficient,在自然图像中,文本实例通常只占据极小的区域,这使得当使用二值交叉熵时网络偏向于非文本区域,dice coefficient的定义如

其中Sk,x,y为第k个预测实例中像素点(x,y)的值,Gk,x,y为第k个预测实例中的label中像素点(x,y)的值;

步骤3识别带不同二进制数的资产标签,获取资产信息;

具体是对获取的资产的标识进行解读,资产的标识由各种图形或者图案组成,不同的图形或图案代表不同二进制数,对标识信息进行识别即对标识中的图形或图案进行识别,识别成功后可以得到对应的唯一二进制编码,通过该编码返回该资产的信息,其中识别标识之前需要通过改进后的网络训练图片识别模型,达到通过给定图形或图案返回数字的效果;

步骤4数据库存储资产信息;

具体是将步骤3中返回的资产信息与其标识信息、编码信息对应保存到云端数据库,同时更新数据库中的信息;资产信息包括资产名称、资产数量、存放位置、所属部门等信息;

步骤5汇总资产数据,返回盘点信息;

具体是根据资产盘点的具体要求,汇总已存储的资产数据,返回对应的盘点信息。

2.如权利要求1所述的基于编码识别的机柜智能资产盘点方法,其特征在于:步骤2.3.1所述的可分离卷积的结构是3×3深度卷积后接1×1投影,所述的感受野是3×3深度卷积,所述的加深网络是1×1卷积。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011124735.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top