[发明专利]基于满文部件切分的印刷体满文识别装置有效
申请号: | 201810371487.2 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108564139B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 郑蕊蕊;李敏;贺建军;许爽;吴宝春 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/34 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 马庆朝;刘鑫 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 满文 部件 切分 印刷体 识别 装置 | ||
基于满文部件切分的印刷体满文识别装置,属于文字识别领域,为了解决提高满文切分精度的问题,要点是存储有多条指令,所述指令适于由处理器加载并执行:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词,效果是识别前,以满文部件作为切分单元,从而能够极大降低对满文切分过程中的过切分和弱切分现象发生。
技术领域
本发明属于文字切分领域,涉及一种基于满文部件切分的印刷体满文识别装置。
背景技术
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
发明内容
为了解决提高满文切分精度的问题,本发明提出如下技术方案:一种基于满文部件切分的印刷体满文识别装置,存储有多条指令,所述指令适于由处理器加载并执行:
S1.对满文部件的切分;
S2.满文部件归一化;
S3.满文部件特征提取与融合;
S4.满文部件识别;
S5.满文部件重组并识别满文单词。
作为技术方案的补充,所述的对满文部件的切分包括提取满文单词图像中轴线及满文部件切分两个步骤。
作为技术方案的补充,所述的提取满文单词图像中轴线的方法是:
S1.1.定位满文单词图像中轴线;
S1.2.检测满文单词图像中轴线宽度。
作为技术方案的进一步补充,所述步骤S1.1具体包括:
S1.1.1.对满文单词图像取反,令文字部分的像素值取1,而背景部分的像素值取0;
S1.1.2.使用MATLAB图像处理工具箱的形态学细化函数实现满文单词图像的形态学细化;
S1.1.3.对形态学细化后的满文单词图像,使用霍夫变换以确定细化的中轴线所对应的列坐标,该列坐标作为满文单词图像中轴线的位置,其中,限定霍夫变换搜索直线的角度为θ=90,仅查找竖直方向的直线,并连接相同纵向位置的,间距小于满文单词图像高度且自身长度大于1个像素的直线为一条直线,求出中轴线的中心位置。
作为技术方案的进一步补充,所述步骤S1.2具体包括:
S1.2.1.确定最大游程比例法的搜索区域;
S1.2.2.对满文单词图像在搜索区域内施以最大游程比例法而确定满文单词图像中轴线的宽度;
S1.2.3.由满文单词图像中轴线的中心位置和中轴线的宽度计算中轴线的左边界和右边界。
作为技术方案的进一步补充,所述步骤S2.1具体为:
最大游程比例法的搜索区域由下述公式规定的范围所确定:
其中,sl是限定的搜索范围的左边界,sr是限定的搜索范围的右边界,baseline是中轴线的中心位置,round表示向最近的整数取整,W是满文单词图像的宽度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810371487.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:色情应用检测方法、装置、计算机可读存储介质和服务器
- 下一篇:一种办公用设备