[发明专利]从可移植电子文档中提取文字部件的方法和系统无效
申请号: | 200910126665.6 | 申请日: | 2009-03-10 |
公开(公告)号: | CN101833544A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 杜成;长谷川史裕;井上浩一 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 移植 电子 文档 提取 文字 部件 方法 系统 | ||
技术领域
本发明一般地涉及文档处理和文档理解,具体地涉及提取可移植电子文档中的文字区域。
背景技术
可移植的电子文档,如PDF,PS等,具有在各种系统平台中显示格式、属性不变的特性,即具有可移植性,并在日常办公室工作中被广泛应用。但是从可移植电子文档中提取部件还是一件难的工作。比如,在PDF文档的格式说明书中,文字部件,比如段落,是由一组独立的文字片断组成的,这使得从PDF文档中提取高级文字部件很难。从电子文档中提取文字部件对于文档重用以及文档检索等应用有重要用途。
美国专利6801673 B2提取PDF文档中的词。该专利通过查找文字片断中的词分隔字符(空格)来提取词或者是判断相邻文字片断之间的距离,如果该距离大于一定门限值,相邻的文字片断就被分为两个词。该专利的输入是一个PDF文档,输出是该文档所包含的词的集合。
美国专利5832530提出了一个从PDF文档中提取内容片断的工具。首先,用户在PDF浏览界面拖拽一个矩形,该工具提取该矩形内包含的PDF文档内容片断,并将提取的内容片断存储为一个新的PDF文档。该工具提取和粘贴低级的PDF命令,高级文档内容如文字部件并没有提取。
在现有技术中,一般仅仅手动简单地提取所选中的文本流,而没有自动地提取文字部件。
而且,上述提取词汇或者提取文档内容片断的技术中,均没有保留关于词汇或者文档内容片断在文档中的位置信息,例如,没有保留某内容片断是处于页面的何处的位置信息。当然上述现有技术更没有保留可移植电子文档中各个文字部件之间,文字部件内部的文字行和文字行之间的位置信息。而位置信息对于文档重用等应用是非常重要的。
发明内容
本发明的一个目的是提供一种能够自动提取文字部件的装置和方法。
根据本发明的一个方面,提出了一种从可移植电子文档中提取文字部件的装置,所述装置包括:文字命令和字体获取单元,用于解析可移植电子文档以获取和文字相关的命令和字体;文字片断提取单元,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及文字部件提取单元,用于根据提取的文字片断和文字片断的位置提取文字部件。
根据本发明的一个优选实施例,所述文字部件提取单元还可以根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
根据本发明的一个优选实施例,所述文字部件提取单元还可以包括:文字片断合并单元,用于合并文字片断到文字行;文字行合并单元,用于合并文字行到文字部件。
根据本发明的另一个方面,提出了一种从可移植电子文档中提取文字部件的方法,所述方法包括:解析可移植电子文档以获取和文字相关的命令和字体;通过处理所述和文字相关的命令和字体来提取文字片断的内容以及文字片断的位置;以及根据提取的文字片断的内容和文字片断的位置提取文字部件。
根据本发明的一个优选实施例,本提取文字部件的方法还可以根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
利用本发明的装置和方法,可以自动地从可移植电子文档中提取文字部件。
进一步地,利用本发明的方法和系统,还可以提取所提取的文字部件的位置信息,也能够保持所提取的各个文字部件之间的位置关系。
本发明提取的文字部件以及文字部件的位置信息可以为文档重用和信息检索等应用提供坚实基础。
附图说明
通过结合附图对本发明各个实施例的详细描述,本领域的技术人员可以更好地理解本发明的上述和其它方面、特点和优点,其中在所有附图中使用相同或相似的附图标记来表示相同或者相似的部件,在附图中:
图1示出了根据本发明一个实施例的从可移植电子文档中提取文字部件的装置的构成框图;
图2示出了根据本发明一个实施例的文字部件提取单元的构成框图;
图3是示出了根据本发明一个实施例的从可移植电子文档提取文字部件的方法流程图;
图4示出了根据本发明一个实施例的从可移植电子文档中提取文字相关命令和字体的流程图;
图5示出了根据本发明一个实施例的文字片断提取流程图;
图6示出了根据本发明一个实施例的根据文字片断和文字片断位置提取文字部件的流程图;
图7示出了根据本发明一个实施例的文字片断到文字行合并流程图;
图8示出了根据本发明一个实施例的文字行到文字部件合并流程图;
图9示出了根据本发明一个实施例的PDF文档树状结构;
图10示出了根据本发明一个实施例的所提取的文字部件示例;以及
图11示出了用于实现本发明一个实施例的示例性计算机系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910126665.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种系统置换的多重基因扩增技术
- 下一篇:主动式红外感应无线电子门迎装置