[发明专利]一种字形识别方法及装置有效
| 申请号: | 201510857445.6 | 申请日: | 2015-11-30 |
| 公开(公告)号: | CN105488471B | 公开(公告)日: | 2019-03-29 |
| 发明(设计)人: | 徐剑波;易珏玲;林欣欣 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 马永芬 |
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 字形 识别 方法 装置 | ||
1.一种字形识别方法,其特征在于,包括如下步骤:
获取目标文档,提取目标文档中的字体信息及其对应的内嵌字体的字体数据;
按照字体名称对所述字体数据进行聚类,得到多个分类;
针对每个类别内的字体数据进行合并;其中,所述针对每个类别内的字体数据进行合并的步骤,包括:删除重复的字形,生成合并的字体数据和字形索引;建立所删除的字形对应的别名和字形索引与合并后的字形索引的对应关系,存入内嵌字体表;
对每个类别中合并后的字体数据对应的各个字形进行分别识别,获得每个字形的编码;
根据所述编码还原目标文档中每个文字对应的编码。
2.根据权利要求1所述的方法,其特征在于:所述按照字体名称对所述字体数据进行聚类的步骤,包括
将字体名称相同的字体数据聚合为一个类别。
3.根据权利要求1所述的方法,其特征在于:对每个类别中合并后的字体数据对应的各个字形进行分别识别,获得每个字形的编码的步骤,包括:
对各个字形分别进行识别,记录下识别得到的字符编码作为该字形的标砖编码,形成字形编码对应表,加入内嵌字体表。
4.根据权利要求3所述的方法,其特征在于,所述根据所述编码还原目标文档中每个文字对应的编码的步骤,包括:
对于目标文档中的各个文字,根据其对应的字体信息及内嵌字体表查找字体信息,根据所述字体信息查找标准编码,将查找到的标准编码加入文档中。
5.一种字形识别装置,其特征在于,包括:
信息提取单元,用于获取目标文档,提取目标文档中的字体信息及其对应的内嵌字体的字体数据;
聚类单元,用于按照字体名称对所述字体数据进行聚类,得到多个分类;
合并单元,针对每个类别内的字体数据进行合并;其中,所述合并单元包括:删除子单元,删除重复的字形,生成合并的字体数据和字形索引;内嵌子单元,建立所删除的字形对应的别名和字形索引与合并后的字形索引的对应关系,存入内嵌字体表;
字形识别单元,对每个类别中合并后的字体数据对应的各个字形进行分别识别,获得每个字形的编码;
编码更新单元,根据所述编码还原目标文档中每个文字对应的编码。
6.根据权利要求5所述的装置,其特征在于:所述聚类单元包括
将字体名称相同的字体数据聚合为一个类别。
7.根据权利要求5或6所述的装置,其特征在于,所述字形识别单元包括:对各个字形分别进行识别,记录下识别得到的字符编码作为该字形的标砖编码,形成字形编码对应表,加入内嵌字体表。
8.根据权利要求7所述的装置,其特征在于,所述编码更新单元包括:对于目标文档中的各个文字,根据其对应的字体信息及内嵌字体表查找字体信息,根据所述字体信息查找标准编码,将查找到的标准编码加入文档中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510857445.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:印刷机薄膜抚平装置
- 下一篇:一种基于激光测距的客流统计方法及装置





