[发明专利]一种针对自然场景的文本检测与识别方法及系统有效
| 申请号: | 202010209803.3 | 申请日: | 2020-03-23 |
| 公开(公告)号: | CN111340034B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 李舟军;肖武魁;刘俊杰;陈小明;田茂清 | 申请(专利权)人: | 深圳智能思创科技有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V20/62;G06V30/18;G06V30/19;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 赵爱蓉 |
| 地址: | 518000 广东省深圳市南山区南头街道莲*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 自然 场景 文本 检测 识别 方法 系统 | ||
1.一种针对自然场景的文本检测与识别系统,其特征在于:所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型;
所述的文本检测模型用于对自然场景图像中的文本区域进行检测,定位包含文本区域的四边形区域;所述的文本检测模型包括多尺度标签生成模块、多尺度特征提取网络模块和渐进式特征图扩展与融合模块;所述的多尺度标签生成模块用于生成层次分割标签,以用于多尺度特征提取网络的训练;所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法;所述的渐进式特征图扩展与融合模块用于提取最终用于预测的分割图,作为所述文本检测模型最终的输出;
所述的文本识别模型用于对文本检测模型输出的分割图进行识别,抽取其中包含的文本信息;所述的文本识别模型包括输入转换模块、特征提取模块、序列特征模块、平衡注意力模块;所述的输入转换模块用于对输入图像进行空间变换;所述的特征提取模块用于将空间转换后的输入图像转换成特征序列;所述的序列特征模块用于学习特征序列之间的关系,学习上下文关系,形成序列特征;所述的平衡注意力模块用于进一步对字符分类特征进行加权。
2.根据权利要求1所述的针对自然场景的文本检测与识别系统,其特征在于:所述的平衡注意力模块包括序列注意力机制和字符平衡机制;序列注意力机制,用于预测序列中每个特征的重要程度;字符平衡机制,用于平衡不同字符之间的重要程度。
3.根据权利要求1所述的针对自然场景的文本检测与识别系统,其特征在于:所述的平衡注意力模块的输入是经过序列特征模块的序列特征,输出是用于计算损失函数的分类序列特征。
4.一种针对自然场景的文本检测与识别方法,其特征在于:该方法包括:
S1.1:多尺度标签生成:多尺度标签生成使用不同的填充方式生成层次分割标签,用于多尺度特征提取网络的训练;
S1.2:多尺度特征提取:对于输入的图像,多尺度特征提取网络通过卷积网络技术提取图像的多层特征表示,获得图像的数学化特征表示方法;
S1.3:渐进式特征图扩展与融合:对于步骤S1.2输出的多层次图像特征,使用渐进式扩展与融合算法,提取用于预测的分割图;
S2.1:对提取的分割图进行空间变换,减小大角度或者大偏移图像对文本识别模型的干扰;
S2.2:对空间变换后的分割图提取深度特征,使用卷积神经网络转换成特征序列;
S2.3学习步骤S2.2输出的特征序列之间的关系,以扩大序列特征的感受野,学习上下文关系;具体使用循环神经网络实现,即双向长短时记忆网络和全连接层结合作为序列特征模块;
S2.4:引入平衡注意力机制:通过自学习对特征图进行加权,还通过引入训练集中数据的分布规律先验知识进一步对字符分类特征进行加权。
5.根据权利要求4所述的针对自然场景的文本检测与识别方法,其特征在于:所述的渐进式扩展与融合算法,具体如下:
在进行特征融合时,从小尺度特征图开始采用广度优先搜索对当前特征图进行扩展,并且与尺度特征图进行匹配检查是否一致扩展:小尺度特征图在进行扩展时,各个连通域向四个方向没有被标记的背景区域进行扩展,同时检查要扩展的区域在大尺度特征图中的标签是否为1,条件都满足时则进行扩展,重复该过程直到没有点扩展;此时输入更大尺度的特征图进行下一轮扩展,直到处理完所有不同尺度的特征图。
6.根据权利要求4所述的针对自然场景的文本检测与识别方法,其特征在于:所述的步骤S2.4,具体过程如下:平衡注意力机制包括两个分支,一个分支是序列注意力机制,用于预测序列中每个特征的重要程度;另一分支是字符平衡机制,用于平衡不同字符之间的重要程度;输入特征序列来自于步骤S2.3序列特征模块的输出,所述的输入特征序列进入平衡注意力机制后同时进入两个分支,第一个分支用于计算序列权重,首先对输入特征序列计算协方差矩阵衡量序列中不同特征之间的相似性,然后经过卷积层、全连接层、Softmax层得到序列权重;第二个分支经过全连接层到得到分类特征序列,分类特征序列的序列长度与输入特征序列相同,分类特征的特征向量长度与字符集大小相同,分类特征序列用于特征到字符的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳智能思创科技有限公司,未经深圳智能思创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010209803.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蓄电池和混合动力车辆
- 下一篇:LED泄放电路和LED驱动电路





