[发明专利]字库部件压缩方法及装置有效
| 申请号: | 201610189238.2 | 申请日: | 2016-03-29 | 
| 公开(公告)号: | CN107241100B | 公开(公告)日: | 2019-11-08 | 
| 发明(设计)人: | 张国荣;陈恳 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 | 
| 主分类号: | H03M7/30 | 分类号: | H03M7/30 | 
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 陶敏;刘芳 | 
| 地址: | 100871 北京市海*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 字库 部件 压缩 方法 装置 | ||
本发明提供一种字库部件压缩方法及装置,其中方法包括:获取字库中各个字符包含的部件的编码信息;获取所述字库中各个字符的笔顺信息;根据各个字符的笔顺信息以及各个字符包含的部件的编码信息,确定各字符中包含的各个部件的笔顺信息;根据部件的笔顺信息,对字库中的各个部件进行相似性合并。本发明提供的字库部件压缩方法及装置,能够有效减少字库中的部件的个数,减少了部件占用的存储空间,有效减少了字库的整体数据量,且简单易行、复用性较好,有利于字库的应用和传输。
技术领域
本发明涉及计算机文字处理技术领域,尤其涉及一种字库部件压缩方法及装置。
背景技术
随着互联网移动化,智能手机、平板电脑和其他移动互联网终端层出不穷,数字出版、无纸阅读和移动阅读的用户群也逐渐壮大,为了提供友好的显示界面,目前大部分设备都采用字库来存储汉字。
字库中通常存储有成千上万个字符,每个字符都有其对应的编码,每个字符都是由偏旁、部首等组合而成的,这些偏旁、部首等统称为部件,为了实现字符的正常显示,在字库中还需要保存每个字符包含的部件的编码以及每个部件的轮廓信息,从而导致字库的整体数据量较大,需要占用很大的存储空间,使得字库在实际应用、传输等方面受到了局限。
发明内容
本发明提供一种字库部件压缩方法及装置,用以解决现有技术中字库占用的存储空间较大的技术问题。
本发明提供一种字库部件压缩方法,包括:
获取字库中各个字符包含的部件的编码信息;
获取所述字库中各个字符的笔顺信息;
根据各个字符的笔顺信息以及各个字符包含的部件的编码信息,确定各字符中包含的各个部件的笔顺信息;
根据部件的笔顺信息,对字库中的各个部件进行相似性合并。
如上所述的方法,优选的是,根据各个字符的笔顺信息以及各个字符包含的部件的编码信息,确定各字符中包含的各个部件的笔顺信息,包括:
根据各个字符中的部件的编码信息,获取部件的轮廓信息;
根据各个部件的所述轮廓信息,确定各个部件的笔画数;
根据所述各个字符的笔顺信息以及字符中各个部件的笔画数,确定字符中包含的各个部件的笔顺信息。
如上所述的方法,优选的是,根据部件的笔顺信息,对字库中的各个部件进行相似性合并,包括:
将笔顺信息相同的部件添加到同一聚类中;
根据部件的轮廓信息,确定每一聚类中各部件之间的相似度;
在同一聚类中,若至少两个部件之间的相似度满足预设条件,则将所述至少两个部件进行合并,并建立部件的原始编码信息和合并后的编码信息之间的对应关系。
如上所述的方法,优选的是,在确定各字符中包含的各个部件的笔顺信息之后,还包括:
根据各个部件的笔顺信息,确定各个部件的序列码,所述序列码包括字形码及序号码,其中,笔顺信息相同的部件对应的字形码相同,对应的序号码不同;
建立部件的序列码与编码信息之间的对应关系;
相应的,将笔顺信息相同的部件添加到同一聚类中,包括:
根据各个部件的序列码,将字形码相同的部件添加到同一聚类中。
如上所述的方法,优选的是,在建立部件的原始编码信息和合并后的编码信息之间的对应关系之后,还包括:
删除原始编码信息对应的部件的轮廓信息;
将字库中存储的原始部件编码信息替换为合并后的部件编码信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610189238.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于测量高速动态比较器热噪声的系统及方法
 - 下一篇:数据串行化电路
 





