[发明专利]满文部件集的构建方法有效
申请号: | 201810371805.5 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108564089B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 郑蕊蕊;李敏;贺建军;许爽;吴宝春 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/68 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 满文 部件 构建 方法 | ||
满文部件集的构建方法,属于文字切分领域,为了解决提高满文切分精度的问题,构建一个满文部件初始集,并置每个满文部件的Flag=0,使用满文部件切分方法对满文单词图像进行分割,并统计和分析分割结果:若分割后的部件不属于初始集,则将该部件加入初始集,并置该部件的Flag=1;若分割后的部件属于初始部件集,则置对应部件的Flag=1,检查初始集中是否有部件的Flag=0,判断是否有部件在分割结果中从未出现过,若存在该部件则将该部件从初始集中删除,整理并输出满文部件集,效果是以满文部件作为切分单元,形成满文部件集,使得满文字母切分中的过切分、弱切分现象极大减少,使得切分精度更高。
技术领域
本发明属于文字切分领域,涉及一种基于满文部件切分的印刷体满文识别方法。
背景技术
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
发明内容
为了解决提高满文切分精度的问题,本发明提出如下技术方案:一种满文部件集的构建方法,构建一个满文部件初始集,并置每个满文部件的Flag=0,使用满文部件切分方法对满文单词图像进行分割,并统计和分析分割结果:若分割后的部件不属于初始集,则将该部件加入初始集,并置该部件的Flag=1;若分割后的部件属于初始部件集,则置对应部件的Flag=1,检查初始集中是否有部件的Flag=0,判断是否有部件在分割结果中从未出现过,若存在该部件则将该部件从初始集中删除,整理并输出满文部件集。
作为技术方案的补充,所述的满文部件集为附表1所示的部件集。
有益效果:以满文部件作为切分单元,形成满文部件集,使得满文字母切分中的过切分、弱切分现象极大减少,使得切分精度更高。
附图说明
图1满文部件集构建流程图;
图2满文部件分割流程图;
图3传统方法满文单词图像中轴线提取错误实例图;
图4采用区域限定的最大游程比例法确定满文中轴线宽度的图,其中:(1)最大游程比例法错误实例图、(2)本发明限定的搜索范围图、(3)本发明方法结果图;
图5本发明方法中轴线提取效果图;
图6满文部件切分流程图;
图7满文部件切分结果图,其中:(1)弱分割现象图、(2)弱分割区域经过细切分图、(3)过分割现象图、(4)过分割区域经过合并图、(5)部分分割结果图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810371805.5/2.html,转载请声明来源钻瓜专利网。