[发明专利]从可移植电子文档中提取文字部件的方法和系统无效
申请号: | 200910126665.6 | 申请日: | 2009-03-10 |
公开(公告)号: | CN101833544A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 杜成;长谷川史裕;井上浩一 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 移植 电子 文档 提取 文字 部件 方法 系统 | ||
1.一个从可移植电子文档中提取文字部件的装置,包括:
文字命令和字体获取单元,用于解析可移植电子文档以获取和文字相关的命令和字体;
文字片断提取单元,用于通过处理所述和文字相关的命令和字体来提取文字片断以及文字片断的位置;以及
文字部件提取单元,用于根据提取的文字片断和文字片断的位置提取文字部件。
2.权利要求1的装置,其中,所述文字部件提取单元还根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
3.权利要求1的装置,所述文字部件提取单元包括:
文字片断合并单元,用于合并文字片断到文字行;
文字行合并单元,用于合并文字行到文字部件。
4.根据权利要求1的装置,其中,所述文字命令和字体获取单元执行下述步骤:
解析可移植电子文档格式,提取内容流并解码;
解析解码后的内容流以提取和文字相关的命令。
5.根据权利要求4的装置,其中,所述文字相关的命令包含文字定位命令,文字显示命令以及文字状态命令。
6.根据权利要求1的装置,其中,所述文字片断提取单元执行以下步骤:
根据文字相关命令和字体计算文字片断位置;
根据文字片断对应字体对文字片断解码。
7.根据权利要求3的装置,所述文字片断合并单元执行以下步骤:
根据文字片断的位置对文字片断排序;
通过比较相邻文字片断的位置关系合并文字片断到文字行。
8.根据权利要求7的装置,其中如果相邻文字片断在与文字行的方向垂直的方向上重叠,并且该相邻文字片断在文字行方向上彼此之间的距离小于预定门限,则所述文字片断合并单元合并该相邻文字片断到文字行。
9.根据权利要求8的装置,其中所述门限是根据待合并文字片断对的尺寸信息计算的。
10.根据权利要求3的装置,所述文字行合并单元执行以下步骤:
根据一页中文字行的分布计算行间距门限值;
如果相邻两行之间在与文字行的方向垂直的方向上的距离小于行间距门限,且该相邻两行之间在文字行的方向上重叠的长度大于重叠门限,则合并该相邻两行。
11.根据权利要求3的装置,其中,所述文字片断包括水平文字片断和垂直文字片断,所述文字行包括水平文字行和垂直文字行,以及其中文字片断合并单元对于水平文字片断和垂直文字片断的处理是独立的,以及文字行合并单元对于水平文字行和垂直文字行的处理是独立的。
12.一个从可移植电子文档中提取文字部件的方法,包含以下步骤:
解析可移植电子文档以获取和文字相关的命令和字体;
通过处理所述和文字相关的命令和字体来提取文字片断的内容以及文字片断的位置;以及
根据提取的文字片断的内容和文字片断的位置提取文字部件。
13.权利要求12的方法,还包括:根据提取的文字片断和文字片断的位置提取文字部件的位置信息。
14.权利要求12的方法,所述提取文字部件的步骤包括:
合并文字片断到文字行;
合并文字行到文字部件。
15.根据权利要求12的方法,其中,所述解析可移植电子文档的步骤中包含以下步骤:
解析可移植电子文档格式,提取内容流并解码;
解析解码后的内容流以提取和文字相关的命令。
16.根据权利要求15的方法,其中,所述文字相关的命令包含文字定位命令,文字显示命令以及文字状态命令。
17.根据权利要求12的方法,其中,所述提取文字片断以及文字片断的位置的步骤中包含以下步骤:
根据文字相关命令和字体计算文字片断位置;
根据文字片断对应字体对文字片断解码。
18.根据权利要求14的方法,所述合并文字片断到文字行的步骤包含以下步骤:
根据文字片断的位置对文字片断排序;
通过比较相邻文字片断的位置关系合并文字片断到文字行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910126665.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种系统置换的多重基因扩增技术
- 下一篇:主动式红外感应无线电子门迎装置