[发明专利]一种多页面版式文档的脚注识别和提取方法在审
| 申请号: | 201910743304.X | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110705223A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 徐剑波;张诗玉;王磊 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
| 主分类号: | G06F40/169 | 分类号: | G06F40/169 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种多页面版式文档的脚注识别和提取方法,属于信息提取领域。本发明所述的方法,通过提取版式文件的中的文字块、线段,提取页面中字号、排版等特征满足条件的文字块作为脚注文字候选,并进行正文中小字符与脚注区域文字的比对来提高候选脚注引用的正确性,同时通过提取脚注线,并区分起始脚注线与续页脚注线,把脚注线与脚注文字交叉验证以排除干扰文字及干扰线段,最终确认脚注区域。采用本发明所述的方法,可以自动从多页的版式文档中提取脚注,适应不同的排版风格,适应脚注在页面底部或文章尾部等情况,并保证高的正确率。 | ||
| 搜索关键词: | 线段 版式文档 文字块 页面 版式文件 交叉验证 满足条件 排版风格 文字候选 信息提取 多页面 正确率 比对 多页 排版 引用 保证 | ||
【主权项】:
1.一种多页面版式文档的脚注识别和提取方法,其特征是包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面内的文字、路径信息;步骤二、进行预处理,识别页眉页脚并从各个页面内取出页眉页脚;统计各页面内的文字字号大小分布,以出现最多的字号作为正文字号;统计各页面内的文字行的坐标信息;步骤三、逐页遍历,提取页面内脚注文字块;步骤四、提取页面的脚注线;步骤五、验证并确认脚注区域。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910743304.X/,转载请声明来源钻瓜专利网。





