[发明专利]用于提取文档结构的方法和装置有效
申请号: | 201110438858.2 | 申请日: | 2011-12-21 |
公开(公告)号: | CN103176956A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 董宁;徐剑波;黄文娟 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 文档 结构 方法 装置 | ||
技术领域
本发明涉及数字排版领域,具体而言,涉及用于提取文档结构的方法和装置。
背景技术
参考文献反映了研究者的研究基础,是前人研究成果的一种表现形式,是对前人研究成果的继承和扩展,也是对前人研究成果的尊重。在各种文件尤其是论文中,经常会标注参考文献。图1示出了带有前导词的单栏的参考文献信息的版面图;图2示出了没有前导词的参考文献信息的版面图;图3示出了多栏的参考文献信息的版面图。如图1-图3所示,这些参考文献信息的格式往往具有一定的规范性,因此对于版式文件的内容信息的提取可以将参考文献信息作为结构数据进行提取,例如,图1中的第1-4行分别一个条目,而第5-6行合并是一个条目。
目前,对数字版式文件参考文献的提取,主要是通过规则的方法、或机器学习的方法、或建立模板的方法对元数据进行抽取,再提取参考文献条目。发明人发现,若用户仅仅是为了提取参考文献,通过抽取元数据进行的参考文献的提取方法会造成提取效率的降低。
发明内容
本发明旨在提供一种用于提取文档结构的方法和装置,以解决现有技术效率较低的问题。
在本发明的实施例中,提供了一种用于提取文档结构的方法,包括:确定参考文献信息在版式文件中的位置;从版式文件的位置的版式内容中提取关于参考文献信息的条目。
在本发明的实施例中,还提供了一种用于提取文档结构的装置,包括:位置模块,用于确定参考文献信息在版式文件中的位置;提取模块,用于从版式文件的位置的版式内容中提取关于参考文献信息的条目。
本发明上述实施例的用于提取文档结构的方法和装置因为直接针对版式内容提取参考文献信息的条目,不通过抽取元数据来提取条目,所以克服了现有技术效率较低的问题,提高了处理参考文献信息的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了带有前导词的单栏的参考文献信息的版面图;
图2示出了没有前导词的参考文献信息的版面图;
图3示出了多栏的参考文献信息的版面图;
图4示出了根据本发明实施例的用于提取文档结构的方法的流程图;
图5示出了根据本发明优选实施例的用于提取文档结构的方法的流程图;
图6示出了根据本发明优选实施例的在单栏中提取参考文献条目的流程图;
图7示出了根据本发明实施例的用于提取文档结构的装置的示意图;
图8示出了关键字“参考书籍”不居中的参考文献信息的版面图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图4示出了根据本发明实施例的用于提取文档结构的方法的流程图,包括:
步骤S10确定参考文献信息在版式文件中的位置;
步骤S20,从版式文件的位置的版式内容中提取关于参考文献信息的条目。
本实施例的方法不通过抽取元数据,而是直接从版式内容中提取参考文献,提高了提取参考文献的效率。
优选地,步骤S10包括:在版式文件的目录中查找具有关于参考文献信息的关键字的目录项;确定目录项所引用的页码;定位到页码所指引的电子页面为参考文献信息的开始页。
现有格式例如PDF的版式文件中往往包含目录,在版式文件的目录中查找诸如“参考文献”、“参考书目”、“Reference”等预定义关键字,若查找到则记录其印刷页码,可以再通过计算出目录电子页面和印刷页码的偏移量,从而根据参考文献的电子页码在版式文件中定位到参考文献所在的页面。
优选地,定位到页码所指引的电子页面包括:确定目录的电子页面的页码和印刷页码的偏移量;定位到页码加偏移量的电子页面。
电子文件不同于纸页文件,电子文件的目录本身也是页面,如果目录共3个页面,那么目录中的项所标注的例如内容第5页,实际上就是第8个页面。本优选实施例通过目录项与正文中提取的章节标题的匹配计算电子页码和印刷页码的偏移,即若匹配成功,则匹配成功的章节标题所在页面的电子页码减去目录条目的印刷页码的差值即为页码偏移。本优选实施例可以提高确定开始页的准确性。
优选地,步骤S10包括:在版式文件的页面中查找具有关于参考文献信息的关键字;确定查找到关键字的页面为参考文献信息的开始页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110438858.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:尼尔森规格管理方法及系统
- 下一篇:静脉点滴治疗车