[发明专利]基于OCR识别的文本字符分割方法及系统在审
申请号: | 202111429302.7 | 申请日: | 2021-11-29 |
公开(公告)号: | CN113989485A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 田辉;鲁国峰;郭玉刚;张志翔 | 申请(专利权)人: | 合肥高维数据技术有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/26;G06V30/148 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230088 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 识别 文本 字符 分割 方法 系统 | ||
1.一种基于OCR识别的文本字符分割方法,其特征在于:包括如下步骤:
S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;
S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;
S300、对上述索引位置进行处理得到每个字符的位置信息;
S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;
S500、根据位置信息和计算分割位置,其中;
S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置对该行中的字符进行分割和切边得到每个字符的边框信息;
S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。
2.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S200中:若连续出现a个置信度均低于设定阈值的索引位置,则判定其为漏识别字符;针对任一字符,记录该字符对应的多个置信度中置信度最大处的索引位置。
3.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S300中,根据神经网络LSTM时间长度以及文本检测行尺寸信息进行特征逆计算,将索引位置放大与文本检测行图像变换后的矫正图的尺寸信息形成映射关系,并根据该映射关系将索引位置处理成字符位置信息。
4.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S500中,包括如下步骤:
S510、根据位置信息和计算中心位置;
S520、记朝向一侧偏移的位置分别为,朝向一侧偏移的位置分别为;
S530、计算所有位置处一列像素中空白位置像素的占比,其中;
S540、取最大值时所对应的位置即为分割位置。
5.如权利要求4所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S540替换为如下步骤:
S550、为每个位置设定权重,权重由中间向两侧逐渐减小,并将每个位置处的与权重相乘;
S560、乘积取最大值时所对应的位置即为分割位置。
6.如权利要求5所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S520中,各偏移位置等间隔设置,该间隔最小值为1pix、最大值为和之间像素宽度的5%。
7.如权利要求5所述的基于OCR识别的文本字符分割方法,其特征在于:所述中心位置处的权重为100%。
8.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S600中,包括如下步骤:
S610、对第j个字符,将其左侧的分割位置向右移动,并判断每次移动时所在位置那一列像素中的黑色像素点数量是否大于设定阈值,若大于则记录当前位置为;
S620、将第j个字符右侧的分割位置向左移动,并判断每次移动时所在位置那一列像素中的黑色像素点数量是否大于设定阈值,若大于则记录当前位置为;
S630、同理,对第j个字符上侧和下侧的分割位置分别向下和向上移动,得到位置和;
S640、根据上述四个位置、、以及即可得到第j个字符的边框信息;
令分别执行上述步骤即可得到该行中所有字符的边框信息。
9.一种基于OCR识别的文本字符分割系统,其特征在于:包括
OCR识别模块,用于对文本进行识别得到索引、内容和置信度信息;
漏识别字符检测模块,根据索引的内容和置信度信息对漏识别字符进行添加;
第一调整模块,用于获取每个字符偏中间处的索引位置;
转化模块,用于将每个字符的索引信息转化成位置信息;
第二调整模块,用于调整符号的位置信息;
分割模块,根据调整后的位置信息对字符进行分割和切边得到每个字符的边框信息;
去噪模块,根据每个字符的置信度和边框信息剔除噪点。
10.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥高维数据技术有限公司,未经合肥高维数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111429302.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源汽车电池弹簧加工生产线
- 下一篇:一种液压盘电缆装置