[发明专利]用于提取文档结构的方法和装置有效
| 申请号: | 201110438858.2 | 申请日: | 2011-12-21 | 
| 公开(公告)号: | CN103176956A | 公开(公告)日: | 2013-06-26 | 
| 发明(设计)人: | 董宁;徐剑波;黄文娟 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 | 
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 | 
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 | 
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 提取 文档 结构 方法 装置 | ||
1.一种用于提取文档结构的方法,其特征在于,包括:
确定参考文献信息在版式文件中的位置;
从所述版式文件的所述位置的版式内容中提取关于所述参考文献信息的条目。
2.根据权利要求1所述的方法,其特征在于,确定参考文献信息在版式文件中的位置包括:
在所述版式文件的目录中查找具有关于参考文献信息的关键字的目录项;
确定所述目录项所引用的页码;
定位到所述页码所指引的电子页面为所述参考文献信息的开始页。
3.根据权利要求2所述的方法,其特征在于,定位到所述页码所指引的电子页面包括:
确定所述目录的电子页面的页码和印刷页码的偏移量;
定位到所述页码加所述偏移量的电子页面。
4.根据权利要求1所述的方法,其特征在于,确定参考文献信息在版式文件中的位置包括:
在所述版式文件的页面中查找具有关于参考文献信息的关键字;
确定查找到所述关键字的页面为所述参考文献信息的开始页。
5.根据权利要求1所述的方法,其特征在于,从所述版式文件的所述位置的版式内容中提取关于所述参考文献信息的条目包括:
从所述开始页开始,确定所述参考文献信息在所述版式文件中各个页面中的范围;
对于所述范围内的每个栏,根据栏中行的字体进行分类,从具有最多行数的字体类开始,依次对每个字体类尝试提取条目,直到提取条目成功。
6.根据权利要求5所述的方法,其特征在于,从所述开始页开始,确定所述参考文献信息在所述版式文件中各个页面中的范围包括:
1在所述开始页属于版心的文本块中查找到所述关键字;
2判断所述关键字在本页面中的位置是否居中,若居中,则设置所述关键字的下边界为所述范围在本页面中的上边界,若不居中,则将版心的上边界作为所述范围在本页面中的上边界;
3从所述范围在本页面中的上边界往下查找包含年份的行,设置该行为PreBlock;
4在本页面中,从PreBlock往下查找包含年份的行,如果在相邻的第A行内查找到包含年份的行,则设置该行为NextBlock,若PreBlock的下边界与NextBlock的上边界的差值大于这两行文本块的平均字号的C3倍,则将PreBlock的下一行的下边界作为所述参考文献信息当前的下边界,否则,将NextBlock的下一行的下边界作为所述参考文献信息当前的下边界;
5设置NextBlock为PreBlock,循环执行步骤4和本步骤5,直到不能在相邻的第A行内查找到包含年份的行或者从PreBlock到本页面的尾行不足A行,设置所述当前的下边界为所述范围在本页面中的下边界;
6如果是不能在相邻的第A行内查找到包含年份的行,则确定本页面是所述范围的结束页;
7如果是从PreBlock到本页面的尾行不足A行,则对于下一页面查找包含年份的行,如果查找不到包含年份的行,或者相邻的包含年份的行的间距大于行的平均字号的C3倍,第一个包含年份的行的上边界与版心的上边界之间的差值大于行的平均字号的C3倍,则确定上一页是所述范围的结束页,否则设置本页面版心的上边界为所述范围在本页面中的上边界,然后循环执行步骤3-7。
7.根据权利要求6所述的方法,其特征在于,确定所述参考文献信息的分栏包括:
对所述范围内的各所述文本块作垂直投影;
找出各个相邻投影线之间最多的文本块数maxLine;
若maxLine大于B,则相邻投影线的设置相邻投影线的最大的间距maxSpace为所述文本块的平均字号的C1倍;若maxLine不大于B且大于C,则设置maxSpace为所述文本块的平均字号;若maxLine不大于C,则设置maxSpace为所述文本块的平均字号的C2倍;
将间距小于maxSpace减1的相邻投影线删除;
如果剩余相邻投影线的数量除以2的结果不小于2,则确定各所述文本块的排版方式为多栏,否则确定各所述文本块的排版方式为单栏。
8.根据权利要求7任一项所述的方法,其特征在于,C3设置为5,C1设置为0.6,C2设置为1.3,A设置为4,B设置为15,C设置为8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110438858.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:尼尔森规格管理方法及系统
 - 下一篇:静脉点滴治疗车
 





