[发明专利]基于OCR识别的文本字符分割方法及系统在审
申请号: | 202111429302.7 | 申请日: | 2021-11-29 |
公开(公告)号: | CN113989485A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 田辉;鲁国峰;郭玉刚;张志翔 | 申请(专利权)人: | 合肥高维数据技术有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/26;G06V30/148 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230088 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 识别 文本 字符 分割 方法 系统 | ||
本发明特别涉及一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,进行漏识别字符添加并确定所有字符索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、对内容为符号的字符位置信息进行偏移调整;S500、根据相邻的两个位置信息计算分割位置;S600、根据分割位置对字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
技术领域
本发明涉及文本处理技术领域,特别涉及一种基于OCR识别的文本字符分割方法及系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR技术非常的成熟,比如论文Detecting Text in Natural Image withConnectionist Text Proposal Network(Zhi Tian, Weilin Huang, Tong He, Pan He,Yu Qiao,ECCV (8) 2016:56-72)中就公开了一种经典的文本检查算法,其在进行文本字符识别时,对任一文本检测行,其会分成多个一定宽度的小框,并对每个小框中的内容进行模板匹配,识别过程中会输出每个小框的索引、内容及置信度信息,然后根据这些信息识别文本并输出。并且,更多的人在此基础上进行改进,提供了更多可靠且有效的算法,使得文本字符的识别技术更加成熟。
针对文本的隐形水印技术,近些年开始逐渐成熟起来,其基本的原理就是通过对字符进行轻微变形,这种变形在肉眼上很难分辨出来,但是通过计算机就可以准确的提取出其中的变形信息,字符中的变形信息可以用于信息隐藏、版权追踪、泄密溯源等多个场景。为了准确的提取字符的变形信息,对文本中字符进行准确的分割至关重要,目前已有的文本字符分割方法实际分割效果都不是很理想,这也直接影响后续对隐藏信息提取的准确性。
发明内容
本发明的目的在于提供一种基于OCR识别的文本字符分割方法及系统,能够非常迅速和精准的对文本中的字符进行分割。
为实现以上目的,本发明采用的技术方案为:一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;S500、根据位置信息和计算分割位置,其中;S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置对该行中的字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。
与现有技术相比,本发明存在以下技术效果:现有技术中的OCR算法非常成熟,但是其只能输出识别出的字符内容,这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
附图说明
图1是OCR识别后的输出信息示意图;
图2是本发明的流程示意图;
图3是分割位置计算示意图;
图4是本发明的系统框图;
图5是现有技术中对字符进行分割后的效果图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥高维数据技术有限公司,未经合肥高维数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111429302.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源汽车电池弹簧加工生产线
- 下一篇:一种液压盘电缆装置