[发明专利]一种表格识别方法及终端有效
申请号: | 201811515989.4 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109635729B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 郭国强;周文贵 | 申请(专利权)人: | 厦门商集网络科技有限责任公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V20/62;G06V10/44 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 何小星 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 方法 终端 | ||
1.一种表格识别方法,其特征在于,包括:
S1、扫描一纸质表格,转换得到一电子档表格并输出;具体为:
S11、扫描一纸质表格,转换得到第一表格图像并输出;
S12、对所述第一表格图像进行RGB图像灰度化处理,得到第二表格图像;
S13、根据Canny算子提取所述第二表格图像的边缘,得到边缘集合,其中,Canny算子是一个多级边缘检测算法,包括:(1)降噪;(2)寻找梯度;(3)边缘跟踪;
S14、遍历所述边缘集合,计算得到与所述第二表格图像对应的倾斜角度;
S15、根据所述倾斜角度旋转所述第二表格图像,得到所述一电子档表格;
S2、为所述一电子档表格中的每一单元格设置编号;
S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;
S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;
S5、重复执行S3至S4,直至所有单元格均被遍历;
S6、重复执行S1至S5,直至预设张纸质表格均已被扫描,得到结构化数据集合;
预设一单元格编号,得到特定编号;
从所述结构化数据集合中获取与所述特定编号对应的一个以上结构化数据,得到第一结构化数据集合。
2.根据权利要求1所述的表格识别方法,其特征在于,所述S2具体为:
获取每一单元格的左上角坐标;
根据所述左上角坐标排列所述一电子档表格中的所有单元格,得到单元格队列;
所述单元格队列中各单元格的编号按顺序依次递增。
3.根据权利要求1所述的表格识别方法,其特征在于,所述S3之前,还包括:
分割所述一电子档表格,得到多个单元格图像;一所述单元格图像与所述一电子档表格中的一单元格对应。
4.根据权利要求3所述的表格识别方法,其特征在于,还包括:
获取与多个所述单元格对应的结构化数据,得到第二结构化数据集合;
封装所述第二结构化数据集合,得到响应报文。
5.一种表格识别终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、扫描一纸质表格,转换得到一电子档表格并输出;所述S1具体为:S11、扫描一纸质表格,转换得到第一表格图像并输出;
S12、对所述第一表格图像进行RGB图像灰度化处理,得到第二表格图像;
S13、根据Canny算子提取所述第二表格图像的边缘,得到边缘集合,其中,Canny算子是一个多级边缘检测算法,包括:(1)降噪;(2)寻找梯度;(3)边缘跟踪;
S14、遍历所述边缘集合,计算得到与所述第二表格图像对应的倾斜角度;
S15、根据所述倾斜角度旋转所述第二表格图像,得到所述一电子档表格;
S2、为所述一电子档表格中的每一单元格设置编号;
S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;
S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;
S5、重复执行S3至S4,直至所有单元格均被遍历。
6.根据权利要求5所述的表格识别终端,其特征在于,还包括:
重复执行S1至S5,直至预设张纸质表格均已被扫描,得到结构化数据集合;
预设一单元格编号,得到特定编号;
从所述结构化数据集合中获取与所述特定编号对应的一个以上结构化数据,得到第一结构化数据集合。
7.根据权利要求5所述的表格识别终端,其特征在于,
所述S2具体为:获取每一单元格的左上角坐标;根据所述左上角坐标排列所述一电子档表格中的所有单元格,得到单元格队列;所述单元格队列中各单元格的编号按顺序依次递增;
所述S3之前,还包括:分割所述一电子档表格,得到多个单元格图像;一所述单元格图像与所述一电子档表格中的一单元格对应;
还包括:获取与多个所述单元格对应的结构化数据,得到第二结构化数据集合;封装所述第二结构化数据集合,得到响应报文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811515989.4/1.html,转载请声明来源钻瓜专利网。