[发明专利]一种从表格图像中抽取结构化信息的方法在审
| 申请号: | 202111393543.0 | 申请日: | 2021-11-23 |
| 公开(公告)号: | CN114120302A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 朱宏宽 | 申请(专利权)人: | 无锡医迈德科技有限公司 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/147;G06V30/10;G06V10/75;G06K9/62;G06F40/18;G06F40/186;G06T3/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 214135 江苏省无锡市新吴区菱*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 表格 图像 抽取 结构 信息 方法 | ||
1.一种从表格图像中抽取结构化信息的方法,其特征在于:包括以下步骤:
第一步:定制表格模板:将表格图像中需要做文字识别的区域进行标记,生成对应该表格的表格模板;
第二步:对表格图像进行仿射变换:将采集的表格图像仿射变换为适配第一步生成的表格模板;
第三步:匹配表头的位置:将第一步生成的表格模板与第二步仿射变换后的表格图像中的表头位置进行匹配;
第四步:识别表格图像内容:匹配好表头位置后,第三步中表格模板其它相对位置也与第二步仿射变换后的表格图像中对应位置匹配,对这些位置的图像内容进行光学文字识别,并将包括表头位置在内的识别结果填入结构化数据表格中;
所述的第三步中,具体是将第二步仿射变换后的表格图像作为第一图层,将第一步生成的表格模板作为第二图层,将第二图层覆盖第一图层,对第二图层最上方红框内对应的第一图层部分通过光学识别设备进行光学文字识别,同时通过刷辊配合气缸对待识别的表格纸张进行抚平,提高光学识别精度,如果识别结果与第一步中表格图像中表头名称相同,则表示已找到表头位置,如果识别结果不同,则滑动第二图层尝试新的位置并再次进行光学文字识别,直到识别结果与表头名称相同,即找到正确的表头匹配位置;
所述光学识别设备包括本体(1);所述本体(1)两侧分别设有进纸板(11)和出纸板(12);所述本体(1)顶部通过滑轨(13)滑动连接有识别模块(14),识别模块(14)底部连接有摄像头(15),摄像头(15)外周设有喇叭形的遮光罩(16),本体(1)顶部与遮光罩(16)对应位置开设有定位槽(17);所述定位槽(17)两侧转动连接有一组橡胶轮(18),橡胶轮(18)同向转动;所述进纸板(11)远离本体(1)的一侧固连有斜板(19);所述遮光罩(16)内设有锥形的半透膜(2),半透膜(2)底端与遮光罩(16)下缘固连,半透膜(2)顶部固连在摄像头(15)外周;所述半透膜(2)与遮光罩(16)之间设有灯板(21),灯板(21)通过支架与遮光罩(16)固连;
所述定位槽(17)靠近进纸板(11)和出纸板(12)的两侧与本体(1)顶部倾斜过渡;所述本体(1)内与定位槽(17)对应位置开设有空腔(22),空腔(22)通过一组负压孔(23)与定位槽(17)底部连通;所述空腔(22)两侧分别设有抽气孔(24)和进气孔(25),抽气孔(24)通过管道与真空泵连通,进气孔(25)内固连有密实的海绵塞(26);
所述进纸板(11)顶部设有护罩(3),护罩(3)顶部固连有气缸(31),气缸(31)的活塞杆延伸至护罩(3)内部;所述活塞杆底端铰接有一对连杆(32),连杆(32)远离活塞杆的一端设有刷辊(33),刷辊(33)通过转轴(34)与连杆(32)端部转动连接;所述护罩(3)内壁与转轴(34)对应位置开设有八字形布置的弧形槽(35),弧形槽(35)关于气缸(31)对称布置;所述转轴(34)一端嵌入弧形槽(35)并与弧形槽(35)滑动连接;所述刷辊(33)外周均布一组刷毛(36),刷辊(33)一侧固连有收卷辊(37),收卷辊(37)上缠绕有拉绳(38),拉绳(38)另一端固连在气缸(31)底部对应位置的护罩(3)内壁上;两个所述连杆(32)中部固连有拉簧(39)。
2.根据权利要求1所述的一种从表格图像中抽取结构化信息的方法,其特征在于:所述的第一步中,表格图像中需要做文字识别的区域在表格模板中标记为红框,表格模板仅包含红框的位置信息。
3.根据权利要求2所述的一种从表格图像中抽取结构化信息的方法,其特征在于:所述的第二步中,具体是将表格图像旋转为正置,并放大或缩小到适配第一步生成的表格模板的尺寸。
4.根据权利要求1所述的一种从表格图像中抽取结构化信息的方法,其特征在于:所述的第四步中,具体是对第二图层所有红框内对应的第一图层中对应的图像内容做光学文字识别。
5.根据权利要求1所述的一种从表格图像中抽取结构化信息的方法,其特征在于:所述护罩(3)内固连有密封的水箱(4),水箱(4)底部设有加热管(41),水箱(4)靠近顶部位置连通有排气管(42);所述转轴(34)内开设有一号孔(43),一号孔(43)通过软管(44)与排气管(42)连通。
6.根据权利要求5所述的一种从表格图像中抽取结构化信息的方法,其特征在于:所述一号孔(43)为盲孔;所述刷辊(33)外周中部开设有环形槽(45),环形槽(45)内套设有弹性环(46),弹性环(46)两端端面与环形槽(45)侧壁密封连接;所述弹性环(46)与环形槽(45)之间形成环形的气道(47),气道(47)通过一组二号孔(48)与一号孔(43)的孔底连通;所述环形槽(45)内圆周均布一组滑孔(49),滑孔(49)顶部镶嵌有钢珠(5),钢珠(5)通过弹簧与滑孔(49)底部固连,滑孔(49)与钢珠(5)密封连接;所述钢珠(5)远离弹簧的一侧抵住弹性环(46)内壁。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡医迈德科技有限公司,未经无锡医迈德科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111393543.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家用电视用超高频扬声器
- 下一篇:一种基于元路径的动态异质网络表示方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





