[发明专利]一种混合PDF图书目录自动抽取算法无效
| 申请号: | 201210404052.6 | 申请日: | 2012-10-23 |
| 公开(公告)号: | CN103778141A | 公开(公告)日: | 2014-05-07 |
| 发明(设计)人: | 刘才华;刘杰;黄亚楼;陈佳俊;张啸丰 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 混合 pdf 图书目录 自动 抽取 算法 | ||
1.一种混合PDF图书自动目录抽取方法,其包括:针对有目录页图书的基于规则的目录项抽取方法,以及针对无目录页图书借助有目录页图书的基于机器学习的目录想抽取算法,以及完成目录项抽取之后,针对目录项进行的定位目录项任务以及目录项分级整理任务。
2.根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:针对有目录页图书的基于规则的目录项抽取方法;
所述针对有目录页图书的基于规则的目录项抽取方法包括:定位目录页,然后根据目录页的内容采用基于规则的方式进行分析,进而获得各个目录项,所述方法在书目中的前部分采用查找包含‘Content’等与目录页相关的关键字来定位目录页;采用所述目录页中的基于规则的方式定义一个目录项的开始与结束;定义目录项的开始结束主要依赖一句是否以关键字‘Chapter’、‘Part’、‘Volume’和‘Book’以及数字罗马数字等开头。
3.根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:针对无目录页图书的基于机器学习方法的目录项抽取方法;
所述针对无目录页图书的基于机器学习方法的目录项抽取方法,利用支持向量机的方法,定义了八个特征:大写字母所占比例、字体大小、最左端位置、最右端位置、段与段之间距离、段所包含的行数、段中每行字数的平均值、段出现的位置纵坐标;通过采用RBM-SVM来训练,标注数据利用有目录页的图书的目录项来生成。
4.根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:目录项的定位方法;
所述目录项的定位方法即定位每一个目录项在文档正文中对应的位置,将获得的逻辑页码找到对应的物理页码;获取逻辑页码采用判断出连续的若干页都是第一行或者最后一行包含数字,就可以判断出逻辑页码出现的位置,即页眉或者页脚;再进行一次逻辑页码补全操作,补全一些没有页码或者OCR错误造成页码丢失的情况;然后根据修正的逻辑页码获得OCR过程中分配给每个PDF页的物理页码,并与相应的目录项关联。
5.根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特点在于包括目录项的分级方法;
所述目录项的分级方法通过对数据进行分析,定义五级分级规则:第一级:包含part、volume、book字样;第二级:包含chapter、chap字样或罗马数字;第三级:包含section、sect字样;第四级:以阿拉伯数字或字母开始;第五级:为待定级,不包含任何以上特征;该级的目录项最终属于哪一级由其上一个目录项决定;对目录项从头到尾进行扫描,按照规则对这些目录项进行分级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210404052.6/1.html,转载请声明来源钻瓜专利网。





