[发明专利]一种面向矿井多源异构图文信息的文本识别方法及装置在审
申请号: | 202011566285.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112633287A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 江曼;郭林;程德强;寇旗旗 | 申请(专利权)人: | 中国矿业大学;江苏华图矿业科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/08;G06N3/04 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 窦艳鹏 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 矿井 多源异 构图 信息 文本 识别 方法 装置 | ||
1.一种面向矿井多源异构图文信息的文本识别方法,其特征在于,包括下述步骤:
获取包含矿井多源异构图文信息的原始输入图像;
基于分割建议网络SPN对所述原始输入图像进行分割,得到原始输入图像的文本建议区域;
对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域;
基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框;
基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
2.根据权利要求1所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,所述分割建议网络SPN包括:
卷积池化层,用于提取所述原始输入图像的特征映射;
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对所述连接裁剪层输出的多个特征映射进行融合,得到特征映射图;
归一化层,用于对所述融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对所述归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对所述二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域。
3.根据权利要求2所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域,包括下述步骤:
基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1∈[0,1],p2∈[0,1],α为随机参数;
基于ResNet-50网络对所述文本特征图进行超分辨率恢复,得到超分辨率文本建议区域。
4.根据权利要求1所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,所述快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层,4个池化层,1个ROI池化层,2个全连接层和2个平级层。
5.根据权利要求4所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框,包括下述步骤:
将所述超分辨率文本建议区域输入Fast R-CNN网络,获得超分辨率文本建议区域相对于实际文本区域的位置偏移量,所述实际文本区域为原始输入图像对应的文本区域;
基于偏移所述位置偏移量后的超分辨率文本建议区域获得分类得分,并进行分类得分排序,并将分类得分最高的区域作为文件检测框。
6.根据权利要求5所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息,包括下述步骤:
将所述文本检测框扩展为文本检测框对应的特征图;
将所述文本检测框对应的特征图输入循环神经网络RNN中,获得原始输入图像中的矿井多源异构图文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学;江苏华图矿业科技有限公司,未经中国矿业大学;江苏华图矿业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566285.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机器人
- 下一篇:通过车辆识别号解析销售车型的方法及装置