[发明专利]一种PDF文档注释的获取方法及装置在审
申请号: | 201410431154.6 | 申请日: | 2014-08-27 |
公开(公告)号: | CN105373562A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 刘利川 | 申请(专利权)人: | 北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100871 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文档 注释 获取 方法 装置 | ||
技术领域
本发明涉及信息抽取领域,特别是涉及一种PDF文档注释的获取方法及 装置。
背景技术
注释在人们阅读PDF时,通过PDF阅读工具加入,通常是人们在阅读过程 中,添加的对PDF文档某些内容的看法。这些注释对于日后的再利用具有重要 的意义。同一PDF,同一内容,不同的使用者可能给出不同的注释。
而PDF格式有其鲜明的技术特色,如跨平台性优越;可集成多种媒体信息 出版和发布,可集成超文本链接、声音及动态影像等电子信息;提供了对网络 信息发布的支持。其中,在PDF的可信可靠,维护信息完整性与一致性及保持 信息安全性上,最为使用者所称道的则是其安全性,数字签名或使用密码保护。 而其他格式则很容易地可以修改或编辑。
PDF的安全性首先保证了PDF文档不能被编辑,至少不能被轻易修改,PDF 格式设计的初衷不是用来编辑的,对PDF文件内的小部分变动可能问题不大, 但对PDF文档中的整块文字或影像的修改就相当困难,即便使用市场上的有关 工具,也无法避开这类限制;其次可通过设置权限,限制用户的内容打印、内 容复制甚至是评论或批注的添加、修改或删除;注释作为一个相对独立的内容 块存放在PDF文档中,由于PDF格式自身的上述特点,这导致了直接使用某些 注释不大现实。
发明内容
本发明的目的是提供一种PDF文档注释的获取方法及装置,能够解决现 有技术对PDF文档注释的直接使用不便的问题。
为了解决上述技术问题,本发明的实施例提供一种PDF文档注释的获取 方法,其中,包括:
对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;
对所述交叉索引表进行检索,得到文件尾Trailer字典;
对所述文件尾Trailer字典进行分析,得到键值Root对应的目录簿Catalog 字典;
对所述目录薄Catalog字典进行检索,获得所述PDF文档的页面字典;其 中,所述页面字典包括:PDF文档的页面;
对所述PDF文档的页面字典进行检索,获取所述PDF文档的页面的注释。
其中,所述对所述PDF文档的体系结构进行解析,获取PDF文档的交叉 索引表的步骤包括:
对PDF文档的树形层次数据结构进行解析,获取所述PDF文档的交叉索 引表。
其中,所述对所述文件尾Trailer字典进行分析,得到键值Root对应的目 录簿Catalog字典的步骤包括:
对所述Trailer字典进行分析,获取键值Root;
根据所述键值Root,获取所述键值Root对应的目录薄Catalog字典。
其中,所述对所述目录薄Catalog字典进行检索,获得所述PDF文档的页 面字典的步骤包括:
对所述目录薄Catalog字典进行检索,获取键值Pages;
根据所述键值Pages,获取所述键值pages对应的所述PDF文档的页面字 典。
其中,所述对所述PDF文档的页面字典进行检索,获取所述PDF文档的 页面的注释的步骤包括:
步骤a,获取所述PDF文档的页面字典中一当前页面;其中,每个页面包 括页面页码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信 息;
步骤b,根据键值Annots,获取当前页面的页面页码信息以及当前页面的 页面内容信息中的注释信息;
步骤c,根据所述当前页面的Prev指针信息,获取所述当前页面的上一页 面;其中,所述上一页面为一新当前页面;并重复步骤b,获取新当前页面页 码信息以及新当前页面的页面内容信息中的注释信息;和/或
根据所述当前页面的Next指针信息,获取所述当前页面的下一页面;其 中,所述下一页面为一新当前页面;并重复步骤b,获取新当前页面页码信息 以及新当前页面的页面内容信息中的注释信息;
步骤d,重复步骤c中根据当前页面的Prev指针信息,获取所述当前页面 的上一页面信息;其中,所述上一页面为一新当前页面;并重复步骤b,获取 所述新当前页面页码信息以及所述新当前页面的页面内容信息中的注释信息 的步骤,至当前页面的Prev指针信息为空;和/或
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司,未经北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410431154.6/2.html,转载请声明来源钻瓜专利网。