[发明专利]图片表格用户交互增强识别的方法有效
申请号: | 201910914814.9 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110826400B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 杜海阳;姚远;柳遵梁 | 申请(专利权)人: | 杭州美创科技有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V10/26 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 阎忠华 |
地址: | 310011 浙江省杭州市拱*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 表格 用户 交互 增强 识别 方法 | ||
本发明公开了一种图片表格用户交互增强识别的方法,包括如下步骤:在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将剩余的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;本发明具有识别结果准确率高的特点。
技术领域
本发明涉及人工智能AI识别图片格式的表格的技术领域,尤其是涉及一种用户可互动参与,有效提高抗干扰性的图片表格用户交互增强识别的方法。
背景技术
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
在实际应用中,由于光线,角度,变形,线条消失等原因,造成了图片表格识别率不高。
发明内容
本发明的发明目的是为了克服现有技术中的图片表格识别过程中,由于光线,角度,变形,线条消失等原因,造成了图片表格识别率低的不足,提供了一种用户可互动参与,有效提高抗干扰性的图片表格用户交互增强识别的方法。
为了实现上述目的,本发明采用以下技术方案:
一种图片表格用户交互增强识别的方法,包括如下步骤:
(1-1)在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;
图片的格式可以是二进制或者Base64字符串;
(1-2)图片表格直线识别
识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;图片二值化的好处是,霍夫寻线算法识别线段的时候可以避免色彩干扰;Opencv是一种开源算法软件;横线和纵线分别为沿二维坐标系的X轴方向和Y轴方向延伸的线段;
(1-3)表格结构识别;
(1-4)识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;
因为在实际应用中,图片的来源是各种各样的复杂图片,可能因为拍照时的角度,亮度,角度等因为造成图片线条的不明显或者部分消失,使得opencv的自动识别结果,始终达不到理想状态。所以本发明通过用户对自动识别进行校正,从而提高图片的正确识别几率。
对纵线集合,横线集合和顶点集合进行人为校正,对无效的线段进行删减,遗漏的线段进行添加标注,完成校正和确认的过程。
用户的操作界面中,主要包括:
线段选择:点击该按钮后,可以对线段进行选中,为默认操作;
线段添加:先选中某个顶点作为起始点,然后确定结束顶点位置,即完成线段添加的操作;
线段修改:线段选择后,进行删除,或者删除某个多余的顶点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州美创科技有限公司,未经杭州美创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910914814.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合石墨导热膜及其制备工艺
- 下一篇:一种船用静音门结构