[发明专利]从可移植电子文档中提取字符外接矩形的设备和方法有效
| 申请号: | 200910249849.1 | 申请日: | 2009-11-27 |
| 公开(公告)号: | CN102081594A | 公开(公告)日: | 2011-06-01 |
| 发明(设计)人: | 徐文晖;杜成;长谷川史裕;井上浩一 | 申请(专利权)人: | 株式会社理光 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 移植 电子 文档 提取 字符 外接 矩形 设备 方法 | ||
技术领域
本发明提供一种从可移植电子文档中提取字符外接矩形的设备和方法,更具体地说,本发明涉及一种在字体需要替换的情况下从可移植电子文档中提取字符外接矩形的设备和方法。
背景技术
可移植的电子文档,如PDF(Portable Document Format,便携式文档格式)、PS(PostScript),在日常办公室工作中被广泛应用。但是从可移植电子文档中提取特定信息还是困难的工作,比如,Adobe Acrobat能从PDF文档中提取字符外接矩形,但提取结果有时并不能令人满意,其原因在于,如果PDF中的某种字体不可用即缺乏字形度量信息,则无法提取该字体的字符的外接矩形。
已经存在的字体替换算法主要关注于字符的栅格化,寻找视觉上相似的字体。但是这些算法并不适用于字符外接矩形的提取。字符外接矩形提取需要寻找在字形度量上相似的字体,而不是视觉上相似。
美国专利6801673B2提供用来提取PDF文档中的词的方法。该专利通过查找文本段中的词分隔字符(空格)来提取词,或者通过判断相邻文本段之间的距离,如果该距离大于某门限值,则相邻的文本段被分为两个词。该专利的输入是PDF文档,输出是该文档所包含的词的集合。
美国专利5859648提供了一种用于计算机的字体替换方法。该方法主要寻找与被替换字体视觉外形上相似的字体,目的是为了字符的栅格化。该专利首先在字体列表中查找选择一个相似的字体,然后调整整体字体宽度以避免字符在视觉外观上的改变;其中,相似字体的选择是根据字体视觉外观的相似性进行评分,没有考虑字形度量上的相似性。对于字符外接矩形的提取,需要寻找在字形度量上相似的字体,而不是视觉上相似的字体,因此该专利的字体替换算法对于字符外接矩形提取没有效果。
发明内容
鉴于现有技术中存在的上述问题而作出本发明,本发明针对可移植电子文档中存在某些字体缺乏字形度量信息的情况,提出了一种通过字体替换来从可移植电子文档中提取字符外接矩形的设备和方法。字符的外接矩形也可以称为字符的最小外接矩形。本发明属于文档处理领域,可应用于文档内容提取、文档重用以及文档检索。
根据本发明的一个方面,提供一种从可移植电子文档中提取字符外接矩形的设备,包括:命令及资源提取装置,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分装置,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换装置,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取装置,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算装置,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
根据本发明的另一个方面,提供一种从可移植电子文档中提取字符外接矩形的方法,包括:命令及资源提取步骤,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分步骤,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换步骤,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取步骤,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算步骤,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
本发明能够用于从诸如PDF、PS的可移植电子文档中提取字符的最小外接矩形,所提取的字符外接矩形可以用于文档重用或者文档检索等。例如,通过比较字符外接矩形的几何分布关系,可以实现电子文档和文档图像之间的匹配,从而实现文档检索。
通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。
附图说明
图1示出根据本发明实施例的实现从可移植电子文档中提取字符外接矩形的计算机系统。
图2示出根据本发明实施例的从可移植电子文档中提取字符外接矩形的设备的总体框图。
图3示例性地示出字符“g”的字形度量信息。
图4示例性地示出字符外接矩形提取的效果对比,左侧为采用开源软件sumatrapdf的字体替换方法来提取字符外接矩形的效果,右侧为应用本发明实施例来提取字符外接矩形的效果。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910249849.1/2.html,转载请声明来源钻瓜专利网。





