[发明专利]一种混合PDF图书目录自动抽取算法无效

专利信息
申请号: 201210404052.6 申请日: 2012-10-23
公开(公告)号: CN103778141A 公开(公告)日: 2014-05-07
发明(设计)人: 刘才华;刘杰;黄亚楼;陈佳俊;张啸丰 申请(专利权)人: 南开大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 混合 pdf 图书目录 自动 抽取 算法
【说明书】:

技术领域

发明涉及信息抽取领域,尤其是一种使用基于规则与机器学习相结合的混合PDF图书自动目录抽取算法。

背景技术

目前,数字出版物勃然兴起,传统图书馆向着数字图书馆转变。数字图书馆需要对图书进行整页高效的摄影或者扫描,之后再通过光学字符识别过程将图像转换为可搜索的文本。因为,光学字符识别技术生成的海量数字化图书只有非常少的结构信息,章节等高级信息没有被识别出来。所以现有的手势识别算法并不能根据章节等信息来形成目录,以帮助读者更好的定位书中的内容,从而增强浏览时的用户体验。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

现有技术目前大部分算法还是基于已有的目录页来识别章节信息,无法针对没有目录页的图书进行识别,而在传统的图书中,还是有较大一部分比例的图书没有目录。另外由于光学字符识别的过程中有大量的识别错误,单纯依赖目录页的识别性能比较低。

发明内容

本发明提供了一种基于机器学习与规则混合的PDF图书目录自动抽取算法,本发明根据PDF文件通过光学字符识别工具得到的Djvuxml文件,根据文件的固定格式,对文件进行分析,采用机器学习与基于规则的方法相结合的方法得到目录,详见下文描述:

一种于机器学习与规则混合的PDF图书自动目录抽取算法,包括:针对有目录图书的基于规则的目录抽取方法,以及针对无目录图书的使用机器学习方法的目录抽取方法。以及获得目录项之后的目录的定位以及分级操作,最终形成完整具有层级以及超链接的目录,提供阅读者良好的导航功能。

所述方法包括以下步骤:

(1)有目录的图书基于规则的目录项抽取方法

本发明针对有目录的图书利用书本中原有的目录页,采用基于规则的方式对原本目录页的内容进行分析,从而获得各个目录项。首先,需要定位目录页,其次,再抽取目录项。

定位目录页。目录页的开始一般都包含‘Contents’字样,并且该页包含很多以数字结尾的行。当然有时也会出现以‘Index’为标题的目录。通过这些特征可以定位到目录页的起始位置。由于大多数书都有页眉,因此判断接下来的页面是否为目录页的方法是查看其页面页眉是否含有‘Contents’字样,或者以数字结尾的行数占总行数的比重。由于目录一般都出现在书的前面,因此在定位目录页时,为了提高准确率并加快速度,只处理书的前半部分。

抽取目录项。抽取目录项工作的重点在于如何判断一个目录项的开始与结束。本说明中制定如下规则来判断目录项的开始:1)如果当前行的第一个单词以Chapter、Part、Volume和Book等为开头的,将其作为目录项的开始。2)如果当前行的第一个单词以数字或者罗马数字开头的,将其作为目录项的开始。3)如果上一行以数字或者罗马数字结尾的,则当前行为目录项的开始。某一个目录项的结束通常伴随着下一个目录项的开始,因此,我们很容易制定出如下规则来判断目录项的结束:1)如果下一行的第一个单词以Chapter、Part、Volume和Book等开头,则当前行为目录项的最后一行。2)如果下一行的第一个单词以数字或者罗马数字开头,则当前行为目录项的最后一行。3)如果当前行以数字或者罗马数字结尾,则当前行为目录项的最后一行。上面这些规则已经可以很好的解决大部分的问题,但是对于少部分的目录却不能很好的提取。比如,某些目录项分成三大部分,第一部分为目录项标题,第二部分为目录项的页码,第三部分为目录项的简介。如果只使用以上的规则,则上一个目录项的简介将与下一个目录项的标题和在一起,被当作当前目录项的标题。因此在上面所说的规则中,加入一条规则:若上一行没有上面说的Chapter、罗马数字等明显划分目录项的信息,并且当前行与上一行的特征差别很大时,则可以直接删除之前所收集的关于当前目录项的信息。也就是从当前行开始认为是目录项的开始,而把原来本应作为当前目录项内容的信息删除。

(2)无目录图书基于支持向量机方法的目录项抽取方法

对于不含目录的书,本发明采用机器学习的方法。因为书中的每一段要么是能被当作链接目录项的一部分,要么不能。因此,可以采用分类的方法解决该问题。本发明将该工作划分为三大部分:1.对书中的每一段进行特征抽取并进行标注,抽取的特征我们希望是能够区分目录项和非目录项的;2训练分类器并对段进行分类,在这里我们使用的是RBF-SVM分类器.;3.将分类后的段提取出来,组成目录项,并对其进行分级操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210404052.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top