[发明专利]文本图像检测方法、网络以及设备有效
| 申请号: | 201910233351.X | 申请日: | 2019-03-26 |
| 公开(公告)号: | CN110135408B | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 李健;高大帅;张连毅;武卫工 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 图像 检测 方法 网络 以及 设备 | ||
1.一种文本图像检测方法,其特征在于,应用于文本图像检测网络,所述文本图像检测网络包括基础子网络、推荐子网络以及定位子网络,所述文本图像检测方法包括:
通过所述基础子网络,接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;
通过所述推荐子网络,在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;所述多种尺寸的先验框重叠铺设;
通过所述推荐子网络,从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;
通过所述定位子网络,利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。
2.根据权利要求1所述的文本图像检测方法,其特征在于,通过所述推荐子网络在滑动铺设多种尺寸的先验框时,对于平行于条目方向的两相邻先验框,所述两相邻先验框的中心之间的间距为m;
对于垂直于条目方向的两相邻先验框,所述两相邻先验框的中心之间的间距为n;
其中,m:n介于4~1.5:1之间,所述两相邻先验框为先验框的中心与中心之间相邻的两先验框。
3.根据权利要求1所述的文本图像检测方法,其特征在于,所述多种尺寸的先验框的种类是k种;k种先验框的尺寸是通过以下方法确定的:
将包含条目的文本图像样本输入k-means算法模型中,并将k-means算法模型的质心数设定为k个,使k-means算法模型输出k种尺寸的先验框;其中,k为介于12~18的整数。
4.根据权利要求1所述的文本图像检测方法,其特征在于,所述多种尺寸的先验框的种类是k种;k种先验框的尺寸是通过以下方法确定的:
将包含条目的文本图像样本输入IOU算法模型中,并将IOU算法模型的质心数设定为k个,使IOU算法模型输出k种尺寸的先验框;其中k为介于12~18的整数,所述IOU算法模型是利用1-iou替代k-means算法模型中的距离d的模型。
5.根据权利要求1所述的文本图像检测方法,其特征在于,通过所述基础子网络接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,包括:
以resnet20网络作为所述基础子网络,通过所述resnet20网络对所述文本图像进行卷积和池化,以获得所述文本图像的特征图。
6.根据权利要求1所述的文本图像检测方法,其特征在于,还包括:
通过所述定位子网络,对定位出位置的条目进行分类,获得条目类型。
7.根据权利要求6所述的文本图像检测方法,其特征在于,还包括:
对定位出位置的条目进行文字识别,获得识别内容;
根据所述条目的条目类型和识别内容,生成结构化的条目数据。
8.根据权利要求1至7任一所述的文本图像检测方法,其特征在于,所述文本图像检测网络是以已标注条目位置和条目类型的文本图像为输入,对预设网络进行训练而得到的网络。
9.一种文本图像检测网络,其特征在于,包括:基础子网络、推荐子网络以及定位子网络,所述基础子网络、推荐子网络以及定位子网络三者两两相连;
所述基础子网络用于接收文本图像,对所述文本图像进行预处理,获得所述文本图像的特征图,并将所述特征图送入所述推荐子网络和所述定位子网络;
所述推荐子网络用于在所述特征图上,滑动铺设多种尺寸的先验框,使所述特征图上被铺设出多个先验框,每种先验框在垂直于条目方向的铺设密度大于平行于条目方向的铺设密度;所述多种尺寸的先验框重叠铺设;
所述推荐子网络还用于从所述特征图上的多个所述先验框中,筛选出能反映条目大致所在区域的先验框,作为推荐框,并将所述推荐框送入所述定位子网络;
所述定位子网络用于利用所述推荐框和所述特征图,定位所述文本图像中的条目的位置。
10.一种文本图像检测设备,包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现权利要求1至8任一所述的文本图像检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910233351.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:样本标注方法及计算机存储介质
- 下一篇:识别模型的优化方法和装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





