[发明专利]一种基于连接文字段的自然图片中多方向文本检测方法有效

专利信息
申请号: 201710010596.7 申请日: 2017-01-06
公开(公告)号: CN106897732B 公开(公告)日: 2019-10-08
发明(设计)人: 白翔;石葆光 申请(专利权)人: 华中科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/08;G06K9/20
代理公司: 武汉臻诚专利代理事务所(普通合伙) 42233 代理人: 向彬
地址: 430074 湖北省*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 连接 文字 自然 图片 多方 文本 检测 方法
【权利要求书】:

1.一种基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述方法包括下述步骤:

(1)训练文字段连接检测网络模型,包括如下子步骤:

(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;

(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型,所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该文字段连接检测网络,得到文字段连接检测网络模型;

(2)利用训练好的上述文字段连接检测网络模型对待检测文本图像进行文字段和连接检测,包括如下子步骤:

(2.1)对待检测文本图像进行文字段检测,由不同卷积层输出的特征图预测出不同尺度的文字段,由同一卷积层输出的特征图预测出相同尺度的文字段;

(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测,所述连接包括层内连接和跨层连接;

(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合,其中文字段置信度得分包括文字段正负类别得分和偏移量得分,利用卷积预测器输出softmax标准化得分;

(3)组合文字段和连接,得到输出包围盒,包括如下子步骤:

(3.1)根据(2.3)中检测得到的标准化得分,过滤卷积预测器输出的文字段和连接,以过滤后的文字段作为节点,以连接作为边,构建连接图;

(3.2)在图上执行深度优先搜索以找到相互连接的组件,每个组件记作集合S,包含由连接相连起来的文字段;

(3.3)将一个集合中的文字段组合成一个完整的词条,计算完整的词条包围盒并输出。

2.根据权利要求1所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(1.2)具体为:

(1.2.1)构建文字段检测卷积神经网络模型:提取特征的前几层卷积单元来自预训练的VGG-16网络,前几层卷积单元为卷积层1到池化层5,全连接层6和全连接层7分别转换为卷积层6和卷积层7,连接在其后的是一些额外加入的卷积层,用于提取更深度的特征进行检测,包括卷积层8、卷积层9、卷积层10,最后一层是卷积层11;后6个不同的卷积层分别输出不同尺寸的特征图,便于提取出多种尺度的高质量特征,检测文字段和连接是在这六个不同尺寸的特征图上进行的;对于这6个卷积层,每一层之后都添加尺寸为3×3的滤波器作为卷积预测器,来共同检测文字段和连接;

(1.2.2)从标注的词包围盒产生文字段包围盒标签:对于原始训练图像集Itr,记缩放后的训练图像集为Itr',wI、hI分别为Itr'的宽度和高度,以第i张图片Itri'作为模型输入,Itri'上标注的所有词包围盒记作Wi=[Wi1,...,Wip],其中Wij为第i张图片上的第j个词包围盒,词包围盒是单词级别或者词条级别,j=1,...,p,p为Itri'上词包围盒的总数量;记后6层卷积层分别输出的特征图构成集合Itroi'=[Itroi1',...,Itroi6'],其中Itroil'为后6层卷积层中第l层输出的特征图,wl、hl分别为该特征图的宽度和高度,Itroil'上的坐标(x,y)对应Itri'上以(xa,ya)为中心点坐标的水平初始包围盒Bilq,它们满足下列公式:

初始包围盒Bilq的宽和高都被设置成一个常数al,用于控制输出文字段的比例,l=1,...,6;记第l层输出的特征图Itroil'对应的初始包围盒集合为Bil=[Bil1,...,Bilm],q=1,...,m,其中m为第l层输出的特征图上初始包围盒的数目;只要初始包围盒Bilq的中心被包含在Itr'上任一标注的词包围盒Wij内部,且Bilq的尺寸al和该标注的词包围盒Wij的高度h满足:那么这个初始包围盒Bilq被标记为正类,标签取值为1,并与高度最为接近的那个词包围盒Wij匹配;否则,当Bilq与所有词包围盒Wi都不满足以上两个条件时,Bilq就被标记为负类,标签取值为0;文字段在初始包围盒上产生,与初始包围盒标签类别相同;

(1.2.3)在所述步骤(1.2.2)产生的带标签的初始包围盒上产生文字段并计算正类文字段偏移量:负类文字段包围盒s-为负类初始包围盒B-;正类文字段包围盒s+由正类初始包围盒B+经过以下步骤得到:a)记正类初始包围盒B+匹配到的标注词包围盒W与水平方向夹角为θs,以B+的中心点为中心,将W顺时针旋转θs角;b)裁剪W,去除超出B+左边和右边的部分;c)以B+的中心点为中心,将裁剪后的词包围盒W'逆时针旋转θs角,得到文字段s+真实标签的几何参数xs、ys、ws、hs、θs;d)计算得到文s+相对于B+的偏移量(Δxs,Δys,Δws,Δhs,Δθs),计算公式如下:

xs=alΔxs+xa

ys=alΔys+ya

ws=alexp(Δws)

hs=alexp(Δhs)

θs=Δθs

其中,xs、ys、ws、hs、θs分别为文字段包围盒s+的中心点横坐标、中心点纵坐标、宽度、高度以及与水平方向之间的夹角;xa、ya、wa、ha分别为水平初始包围盒B+的中心点横坐标、中心点纵坐标、宽度、高度;Δxs、Δys、Δws、Δhs、Δθs分别为文字段包围盒s+中心点横坐标xs相对初始包围盒B+的偏移量、纵坐标ys相对初始包围盒的偏移量、宽度ws的偏移变化量、高度hs的偏移变化量、角度θs的偏移量;

(1.2.4)对于步骤(1.2.3)产生的文字段包围盒计算连接标签:文字段s是在初始包围盒B上产生的,因此s之间的连接标签和它们对应的初始包围盒B之间的连接标签相同;对于特征图集合Itroi'=[Itroi1',...,Itroi6'],如果在同一张特征图Itroil'的初始包围盒集合Bil里,两个初始包围盒的标签都是正类,且匹配到同一个词,那么之间的层内连接被标记为正类,否则标记为负类;如果在特征图Itroil'对应的初始包围盒集合Bil里的初始包围盒和Itroi(l-1)'对应的的初始包围盒集合Bi(l-1)里的初始包围盒的标签都是正类且匹配到同一个词包围盒Wij,那么之间的跨层连接被标记为正类,否则标记为负类;

(1.2.5)以缩放后的训练图像集Itr'作为文字段检测模型输入,预测文字段s输出:对模型初始化权重和偏置,前6万次训练迭代步骤学习率设置为10-3,之后学习率衰减到10-4;对于后6层卷积层,在第l层特征图Itroil'上的坐标(x,y)处,(x,y)对应到输入图像Itri'上以(xa,ya)为中心点坐标、以al为尺寸的初始包围盒Bilq,3×3的卷积预测器都会预测出Bilq被分别划分成正、负类的得分cs,cs为二维向量,取值范围为0-1之间的小数;同时也预测出5个数字作为被划分到正类文字段s+时的几何偏移量,其中分别为预测的文字段包围盒s+中心点横坐标相对正类初始包围盒B+的偏移量、纵坐标的相对正类初始包围盒B+的偏移量、高度的偏移变化量、宽度的偏移变化量、角度偏移量;

(1.2.6)在已预测的文字段基础上预测层内连接和跨层连接输出:对于层内连接,在同一张特征图Itroil'上坐标点(x,y)处,取x-1≤x'≤x+1、y-1≤y'≤y+1范围内近邻的点(x',y'),这8个点对应到输入图像Itri'时,便获得了与(x,y)对应的基准文字段s(x,y,l)相连接的层内近邻文字段s(x',y',l),8个层内近邻文字段可表示为集合:

3×3卷积预测器会预测出s(x,y,l)与层内近邻集合的连接的正、负得分cl1,cl1为16维向量,其中,w为上标,表示层内连接;

对于跨层连接,一个跨层连接将两个连续卷积层输出的特征图上两个点处对应的文字段相连;由于每经过一层卷积层,特征图的的宽度和高度都会缩小一半,第l层输出特征图Itroil'的宽度wl和高度hl是第l-1层特征图Itroi(l-1)'的宽度wl-1和高度hl-1的一半,而Itroil'对应的初始包围盒尺度al是Itroi(l-1)'对应的初始包围盒尺度al-1的2倍,对于在第l层输出特征图Itroil'上的(x,y),在特征图Itroi(l-1)'上取2x≤x'≤2x+1、2y≤y'≤2y+1范围内的4个跨层近邻点(x',y'),Itroil'上(x,y)对应到输入图像Itri'上的初始包围盒刚好与Itroi(l-1)'上4个跨层近邻点对应到输入图像Itri'上的4个初始包围盒空间位置重合,4个跨层近邻文字段s(x',y',l-1)可表示为集合:

3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上近邻文字段集合之间跨层连接的正、负得分cl2,cl2为8维向量:

其中,表示预测器预测出s(x,y,l)与其所有4个近邻文字段之间的连接的正、负得分,c为上标,表示跨层连接;

所有的层内连接和所有的跨层连接构成连接集合Ns

(1.2.7)以步骤(1.2.3)和步骤(1.2.4)获得的文字段标签、正类文字段真实偏移量、连接标签作为输出基准,以步骤(1.2.5)预测的文字段类别及得分、预测的文字段偏移量、步骤(1.2.6)预测的连接得分为预测输出,设计预测输出与输出基准之间的目标损失函数,对文字段连接检测模型利用反向传导法进行不断地训练,来最小化文字段分类、文字段偏移回归和连接分类的损失,针对所述文字段连接检测模型设计目标损失函数,目标损失函数是三个损失的加权和:

其中ys是所有文字段的标签,cs是预测的文字段得分,yl是预测的连接标签,cl是预测的连接得分,由层内连接得分cl1和跨层得分cl2组成;如果第i个初始包围盒标记为正类,那么ys(i)=1,否则为0;Lconf(ys,cs)是预测的文字段得分cs的softmax损失,Lconf(ys,cl)是预测的连接得分cl的softmax损失,是预测的文字段几何参数s和真实标签之间的平滑L1回归损失;ns是正类初始包围盒的数量,用来对文字段分类和回归损失进行归一化;nl是正类连接总数,用来对连接分类损失进行归一化;λ1和λ2为权重常数;

(1.2.8)在步骤(1.2.7)的训练过程中,采用在线扩增方法对训练数据Itr进行在线扩增,并采用在线负样本难例挖掘策略来平衡正样本和负样本,在训练图片Itr被缩放到相同的尺寸并批量加载之前,它们被随机地裁剪成一个个图像块,每个图像块与文字段的真实包围盒的jaccard重叠系数o最小;对于多方向文字,数据扩增是在多方向文字包围盒的最小包围矩形上进行的,每个样本的重叠系数o从0、0.1、0.3、0.5、0.7和0.9中随机选择,图像块的大小为原始图片尺寸的0.1-1倍之间;训练图像不水平翻转;另外,文字段和连接负样本占据训练样本的大部分,采用在线负样本难例挖掘策略来平衡正样本和负样本,对文字段和连接分开进行挖掘,控制负样本与正样本之间的比例不超过3:1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710010596.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top