[发明专利]西文单词切分方法和装置有效
申请号: | 201010622057.7 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102542269A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 亓文法;王高阳;王立东;杨斌 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/20 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 西文 单词 切分 方法 装置 | ||
1.一种西文单词切分方法,其特征在于,包括:
将西文图像通过行列切分得到多个字符图像块;
从所述字符图像块中识别有效字符图像块;
设置切分阈值;
通过比较连续的所述有效字符图像块之间的距离与所述切分阈值,以切分单词。
2.根据权利要求1所述的方法,其特征在于,将西文图像通过行列切分得到多个字符图像块包括:
纵向扫描所述西文图像;
计算每条水平扫描线上前景点i的像素值Si之和其中,nWidth是所述西文图像的文本区域的像素宽度;
如果Sn≥N1,则确定当前扫描线为组成字符的扫描线;
如果Sn<N1,则确定当前扫描线为噪声或空白;
横向扫描所述西文图像;
计算每条垂直扫描线上前景点i的像素值Ri之和其中,nHight是所述西文图像的文本区域的像素高度;
如果Sn≥N2,则确定当前扫描线为组成字符的扫描线;
如果Sn<N2,则确定当前扫描线为噪声或空白;
其中,N1和N2是预设值。
3.根据权利要求1所述的方法,其特征在于,从所述字符图像块中识别有效字符图像块包括:
将所述字符图像块区分为标点图像块和所述有效字符图像块。
4.根据权利要求3所述的方法,其特征在于,将所述字符图像块区分为标点图像块和所述有效字符图像块包括:
判断以下条件:
条件1、wki大于Nt1倍Hkmax;
条件2、Uki的上下边完全落在中心范围以外;
条件3、Uki的上下边至少有一边落在中心范围以内,且hki大于Nt2倍Hk;
条件4、Uki的上下边至少有一边落在中心范围以内,hki不大于Nt2倍Hk,且dwki小于Nt3;
条件5、Uki的上下边均没有落在中心范围以内,且dwki小于Nt3,dhki小于Nt4;
其中,Uki是第k行的集合Ωk中的第i个所述字符图像块的外接矩形框,hki、wki分别为Uki的高度和宽度,dhki=hki/Hkmax,dwki=wki/Hkmax,Hkmax为Ωk中所述字符图像块的最大高度,Hk为当前行的行高,mk为当前行的中线位置,mk±r×Hk为当前行的中心范围,r、Nt1、Nt2、Nt3和Nt4为预设的系数;
如果条件1-5中任一条成立,则确定对应的所述字符图像块为所述标点图像块,如果条件1-5均不成立,则确定Uki对应的所述字符图像块为所述有效字符图像块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010622057.7/1.html,转载请声明来源钻瓜专利网。