[发明专利]基于连通分量和回归式字切分的彝文古籍字符检测方法有效
申请号: | 201910815873.0 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516673B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 韩旭;陈善雄;林小渝;邱小刚;李然康 | 申请(专利权)人: | 西南大学 |
主分类号: | G06V30/246 | 分类号: | G06V30/246;G06V30/164;G06V30/148 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 刘海艳 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连通 分量 回归 切分 彝文 古籍 字符 检测 方法 | ||
本发明提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法,所述方法包括如下步骤:S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。本发明能够对古籍中文本和非文本区域进行了有效的分离,并在单字检测实验中取得了较高的准确率和召回率,能有效地解决古籍文献字符识别中的字符分割及检测问题。
技术领域
本发明主要涉及古籍彝文字符检测识别相关技术领域,具体是基于连通分量和回归式字切分的彝文古籍字符检测方法。
背景技术
在中国众多少数民族中,彝族是一个有着2000多年历史优秀民族,在长期的发展中形成了自己独特的文化,据统计,彝文的使用人数有100万以上,由于地域差异,各个地区的彝文也有着明显的差异,因此彝文字符数量众多,仅在滇川黔桂彝文字集中收录的彝文字符就多达八万余个。彝文作为一种重要的少数民族文字一直沿用至今,并在历史上留下了许多珍贵的典籍。彝文古籍正是记录彝族几千年发展的重要载体,卷帙浩繁的彝文古籍,在国内各大图书馆和研究、翻译机构都有大量收藏。在国外,英国、日本、法国和瑞士的一些机构也有不少彝文藏书。散存在民间的彝文经典,更是数以万计。这些彝文文献涉及宗教、历史、哲学、文学、语言文字、医药、天文、地理和农技等各个方面。目前彝文古籍大量散落民间,数量在十万卷以上。
长期以来,由于保护观念淡薄,彝文古籍大多数损坏严重,急需进行数字化保护与利用。因此,如何将彝文古籍中的古彝文字符进行定位和分割,从古籍中获取更多关于彝族历史和文化的信息,是古彝文数字化研究的重点。进行彝文数字化首先面临的问题就是将古籍扫描成为计算机可读取的文件格式,实现彝文的信息处理和分析。而作为彝文古籍的载体石刻、崖画、木牍和纸书由于年代久远,往往模糊不清,或者残缺不全,这给古彝文字符的检测带来了极大的挑战。
目前,对于复杂场景下的中英文文字符检测已经有了较多的研究,然而,这些研究大多采用基于深度学习的方法对字符进行检测和识别,这些方法并不完全适用于具有复杂噪声的彝文古籍。因为首先,中国很少有人能认识并书写彝文,字符的标注工作非常困难,其次,和手写体汉字的检测相比,从复杂噪声背景下的彝文古籍中对古彝文文本进行检测将面临图像模糊、污染严重、书写格式凌乱等诸多问题。因此,对于彝文古籍字符的检测,需要采用一种更高效的方法。近几年,也有很多关于少数民族语言文字的检测和识别的研究,但大多仅停留在研究规范的印刷体字符的检测与识别,这主要是由于手写体相较印刷体而言,书写风格较为随意,而且采样和标注工作耗时耗力,再加上一些古籍图片由于破损和严重的噪声,给采样工作带来了很大的困难。
发明内容
为解决目前技术的不足,本发明结合现有技术,从实际应用出发,提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法,相比于传统的检测方法可以取得较高的准确率和召回率,能够提高古彝文识别的精准程度。
本发明的技术方案如下:
基于连通分量和回归式字切分的彝文古籍字符检测方法,所述方法包括如下步骤:
S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;
S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;
S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。
进一步的,步骤S2具体包括如下步骤:
S21、去除图像中小的噪点;
S22、去除图像中的分割线、标点符号和图画装饰;
S23、将非文本区域连通域进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815873.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卡证信息识别方法、装置及终端
- 下一篇:一种文本图像的手写汉字分割方法及系统