[发明专利]一种多页面版式文档的脚注识别和提取方法在审
| 申请号: | 201910743304.X | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110705223A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 徐剑波;张诗玉;王磊 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
| 主分类号: | G06F40/169 | 分类号: | G06F40/169 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 线段 版式文档 文字块 页面 版式文件 交叉验证 满足条件 排版风格 文字候选 信息提取 多页面 正确率 比对 多页 排版 引用 保证 | ||
1.一种多页面版式文档的脚注识别和提取方法,其特征是包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面内的文字、路径信息;步骤二、进行预处理,识别页眉页脚并从各个页面内取出页眉页脚;统计各页面内的文字字号大小分布,以出现最多的字号作为正文字号;统计各页面内的文字行的坐标信息;步骤三、逐页遍历,提取页面内脚注文字块;步骤四、提取页面的脚注线;步骤五、验证并确认脚注区域。
2.根据权利要求1所述一种多页面版式文档的脚注识别和提取方法,其特征是;所述步骤三的具体步骤如下:把满足条件的文字块按加入到相应的集合中;如果文字块字号小于正文字号,且文字块与页面版心的左边界对齐,则把该文字块加入集合matched_objs,如果文字块字号小于正文字号,且文字块与页面版心的左边界不对齐,则把该文字块加入集合inline_objs,如果文字块字号未满足上述要求,但文字块与页面版心的左边界对齐,则把该文字块加入集合candi_lines,如果集合inline_objs非空,且matched_objs为空,则inline_objs与candi_lines两两匹配;如candi_lines中的文字块记为line的开头文字串与inline_objs的文字块obj一致,把line加入到matched_objs集合中,从inline_objs中移除obj,一直到inline_objs为空,或candi_lines全部比对完成,以matched_objs作为该页面的脚注文字块集合记为smallobjs。
3.根据权利要求1所述一种多页面版式文档的脚注识别和提取方法,其特征是;所述步骤四的具体步骤如下:从页面尾部开始,查找同时满足条件的水平线作为脚注线候选集;脚注线与页面版心的左边界脚注线长度接近144标注为起始脚注线,长度为页面版心宽度标记为续页脚注线,从脚注线候选集中按以下规则优选其中一条做为脚注线;如果脚注线候选集为空,则无脚注线,如果脚注文字块集合smallobjs为空,则把以脚注线候选集中的第一个作为脚注线,脚注线候选集和脚注文字块集合均非空时,需检查是否有冲突,以去除干扰;检查的步骤:设候选脚注线的数量为candi_count,逐个遍历候选脚注线集合,以其中每个候选脚注线为分割线,把脚注文字块分割为上下两个集合above_objs和below_objs,直到above_objs为空时,遍历中止;共得到n个分割方案,如果n为1,则只有一个有效分割,把该分割对应的候选脚注线作为选出的脚注线,如果n>1,则选择最后一个分割方案对应的候选脚注线作为选出的脚注线。
4.根据权利要求1所述一种多页面版式文档的脚注识别和提取方法,其特征是;所述步骤五的具体步骤如下:如果未找到脚注线,则该页面无脚注,如果找到脚注线,则把脚注线以下的区域作为脚注的候选区域,并进一步校验,提取候选区域的文字的字号分布,以其中出现最多的作为脚注字号,如果脚注文字块集合smallobjs为空,则如果当前脚注线为续页的脚注线且脚注字号与上一页的脚注字号相差较大,则否决该脚注,按无脚注返回,如果脚注文字块集合smallobjs不为空,则如果当前脚注线为起始脚注线且smallobjs中不存在位于当前脚注线以下的文字块,则否决该脚注,按无脚注返回,通过上述检查后,确认候选区域为脚注区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743304.X/1.html,转载请声明来源钻瓜专利网。





