[发明专利]基于图像处理与文字识别实现表格数字化处理方法及系统有效
| 申请号: | 202210525586.8 | 申请日: | 2022-05-16 |
| 公开(公告)号: | CN114627482B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 吴宁远;曾颐楠;刘秀娟;黄伯太;张益雄;徐宏昌;吴佳晔 | 申请(专利权)人: | 四川升拓检测技术股份有限公司 |
| 主分类号: | G06V30/412 | 分类号: | G06V30/412;G06F40/18;G06F40/183;G06F40/186 |
| 代理公司: | 成都行之智信知识产权代理有限公司 51256 | 代理人: | 宋海霞 |
| 地址: | 643000 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图像 处理 文字 识别 实现 表格 数字化 方法 系统 | ||
1.基于图像处理与文字识别实现表格数字化处理方法,其特征在于,该方法包括:
获取待数字化处理的纸质表格模板图像,并将所述纸质表格模板图像转换为位图;
根据所述位图,通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格;根据提取出的单元格信息,采用反算法,将所述单元格信息从位图中去除;同时采用Ocr文字识别技术对所述位图中的每个文字所占用的横向有效像素点点数、纵向有效像素点点数及像素点位置坐标进行计算提取,得到文字识别结果;所述文字识别结果为第一组bean结构数据,所述单元格信息为第二组bean结构数据;
将所述文字识别结果绑定至对应的单元格,得到标定模板文件,并将所述标定模板文件以自定义列表控件形式将表格进行回显;
获取待数字化处理的纸质表格图像,根据所述标定模板文件,调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别,得到识别结果;
所述的将所述文字识别结果绑定至对应的单元格,得到标定模板文件,并将所述标定模板文件以自定义列表控件形式将表格进行回显,具体包括:
S51,将所述第一组bean结构数据与第二组bean结构数据回显后叠加形成电子回显表单模板,作为标定模板文件;
S52,通过自定义列表控件实现对文件中表格进行单元格的合并、分割操作调整样式和内容;
S53,以文件中表格的单元格横纵向布局为基准,为每个单元格进行函数定义赋值;
S54,利用S53中的函数定义赋值使得文件中的表格可用于运算规则设定,从而实现表格中数据的运算处理;
步骤S52具体为:若存在识别误差,则通过在回显列表上进行格式调整:修改文字、分割或者合并单元格,使其符合所述纸质表格模板图像中表格的实际布局和文字信息;
同时设置单元格之间相互对应的计算规则和单元格的识别阈值;
将格式调整完毕、单元格之间相互对应的计算规则和单元格的识别阈值的表格参数作为更新后的标定模板文件;
若不存在识别误差,则不进行格式调整。
2.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法,其特征在于,所述的获取待数字化处理的纸质表格模板图像,并将所述纸质表格模板图像转换为位图,包括:
利用搭载Android系统的手机调用自身摄像头对待数字化处理的纸质表格模板进行拍照,得到拍照结果作为纸质表格模板图像;
并将所述纸质表格模板图像转换为Bitmap位图。
3.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法,其特征在于,所述的通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格,包括:
对所述位图进行灰度化处理,得到灰度化处理后的位图;
对灰度化处理后的位图进行二值化处理,所述二值化处理中的二值化阈值采用双峰法数学模型自适应寻找所得;
采用腐蚀膨胀算法对从所述二值化处理后的位图分别提取出横向直线位图和竖向直线位图,将所述横向直线位图、竖向直线位图重叠放置,得到交点信息位图;
根据所述交点信息位图,采用组成矩形的相邻交点判断法将所有能组成矩形的四个相邻交点组成一组bean结构数据,每组bean结构数据即为单元格位置信息;四个相邻交点即是矩形单元格的四个顶点。
4.根据权利要求3所述的基于图像处理与文字识别实现表格数字化处理方法,其特征在于,所述腐蚀膨胀算法采用图像闭运算法,采用图像闭运算法对从所述灰度化处理后的位图分别提取出横向直线位图和竖向直线位图,将所述横向直线位图、竖向直线位图重叠放置,得到交点信息位图,具体包括:
采用图像闭运算法对从所述灰度化处理后的位图进行分析处理:
根据卷积核高度进行横向直线位图获取:当卷积核高度设置为1时,得到所述灰度化处理后的位图对应的横向直线位图;
根据卷积核宽度进行竖向直线位图获取:当卷积核宽度设置为1时,得到所述灰度化处理后的位图对应的竖向直线位图;
将所述横向直线位图、竖向直线位图重叠放置,采用霍夫直线检测法提取出表格骨架直线,进而获取所述纸质表格模板图像的所有交点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川升拓检测技术股份有限公司,未经四川升拓检测技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210525586.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种涤纶卷绕机中的导丝装置
- 下一篇:一种交通目标识别方法及系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





