[发明专利]基于满文部件切分的印刷体满文识别装置有效
申请号: | 201810371487.2 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108564139B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 郑蕊蕊;李敏;贺建军;许爽;吴宝春 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/34 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 马庆朝;刘鑫 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 满文 部件 切分 印刷体 识别 装置 | ||
1.一种基于满文部件切分的印刷体满文识别装置,其特征在于:存储有多条指令,所述指令适于由处理器加载并执行:
S1.对满文部件的切分;
S2.满文部件归一化;
S3.满文部件特征提取与融合;
S4.满文部件识别;
S5.满文部件重组并识别满文单词;
所述的S1.对满文部件的切分包括提取满文单词图像中轴线及提取满文单词图像中轴线后的满文部件切分两个步骤;
所述的提取满文单词图像中轴线的方法是:
S1.1.定位满文单词图像中轴线;
S1.2.检测满文单词图像中轴线宽度;
所述的提取满文单词图像中轴线后的满文部件切分的方法是:
满文部件粗切分;
弱分割区域的判定与细切分;
过分割区域判定与合并;
过分割区域判定与合并的方法是:
(1)若第1个切分区域过分割,则与第2个切分区域合并;否则转步骤(2);
(2)若倒数第2个切分区域过分割,则与最后一个切分区域合并;否则转步骤(3);
(3)若过分割区域既不是第1个,也不是倒数第2个,则分别计算其相邻的上、下2个切分区域的高度h_up和h_lw,如果h_up<h_lw,则与上一个切分区域合并;如果h_up>h_lw,则合并到下一个切分区域;否则转步骤(4);
(4)若过分割区域的上、下2个相邻区域的高度相等,则分别计算与上区域合并后的连通域个数num_up,与下区域合并后的连通域个数num_lw,如果num_up<num_lw,则与上一个切分区域合并,如果num_up>num_lw,则与下一个切分区域合并;
(5)输出合并过分割区域的切分行序列;
所述的满文部件是由切分得到的,其切分方法包括:
满文部件粗切分:
由于满文部件以中轴线为连接,因此首先以中轴线为中心,将满文单词分为左、中、右3部分;其中,左侧部分的范围为满文单词的第1列到第bl-1列,右侧部分的范围为第br+1列到满文单词的第W列,W是满文单词图像的宽度,bl是中轴线的左边界,br是中轴线的右边界,baseline_width是满文单词图像中轴线的宽度;分别对左侧部分和右侧部分进行水平投影,记为pl和pr;定义第i行的切分代价函数为:
Cost(i)=pl(i)+pr(i),i=1,2,…,H (3)
理想情况下切分行的代价函数值应为0,即左右两部分在该行都没有除中轴线之外的笔画;但实际情况中,由于扫描、倾斜校正、二值化预处理带来的噪声影响,对切分行的约束条件太严格则会导致严重的弱分割问题;设T1为满文部件粗切分阈值,T1的值为T1=[1/2×baseline_width];只有满足条件:
Cost(i)≤T1 (4)
的行才是候选切分行,并记所有满足条件(4)的候选切分行组成的序列为Can_seg;
经满文部件粗切分所获得的候选切分行集合,会出现以下三种情况:
1)把图像的第1行当做候选切分行,这显然是不合理的候选行,故应从候选切分行集合中删除;
2)图像的从第1行开始的连续相邻行/图像以最后1行为结束的连续相邻行,都是不合理的候选行子段,故应从候选切分集合中删除这些子段;
3)除了2)中的连续相邻行组成的子段,只需要其中位于中间位置的一条候选切分行,其余的并不需要;故应采用中间位置的候选行替代整个连续相邻行组成的子段;
采用以下策略进一步删除Can_seg中的多余候选切分行:
1如果Can_seg中只有1条候选分割行,且为第1行,则删除该行;否则转步骤2;
2查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行,H是满文单词图像的高度;否则转步骤3;
3在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,偶数个候选行时取中间两个值的平均值再向上取整;
4输出删除多余候选切分行的新切分行序列Can_seg_new;
候选分割区域的弱分割判决与细切分:
经粗切分的满文部件可能存在弱切分情况;统计结果表明,满文部件的高度一般不超过5倍baseline_width,故设弱分割判定阈值T_less=5;计算Can_seg_new中每个切分区域的高度hl,则高度hl>(T_less×baseline_width)的切分区域被判定为弱分割区域;对于弱分割区域,采用上述粗切分方法和细切分阈值T2进行二次切分,并保存在Seg1序列中;细切分阈值T2在粗切分的基础上再次放宽对切分候选行的约束,通过大量实验确定T2=[2/3×baseline_width];其中,对T2的值的确定实验,是为选择不同倍数的baseline_width作为T2,这些倍数都是=1的分数,执行满文部件切分方法,对于切分后的图像比较,选择出切分效果更好的满文单词图像所对应的T2,最终选择为上述T2值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810371487.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:色情应用检测方法、装置、计算机可读存储介质和服务器
- 下一篇:一种办公用设备