[发明专利]一种基于基线估计的藏文历史文献文本行切分方法有效

专利信息
申请号: 201710849135.9 申请日: 2017-09-20
公开(公告)号: CN107730511B 公开(公告)日: 2020-10-27
发明(设计)人: 段立娟;李颜兴 申请(专利权)人: 北京工业大学
主分类号: G06T7/11 分类号: G06T7/11;G06T7/194;G06T3/00
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 基线 估计 藏文 历史文献 文本 切分 方法
【说明书】:

发明涉及一种对藏文历史文献文本行切分的方法。通过提取藏文历史文献的左侧部分图像,去除藏文元音音节点和某些突出的笔画,获取藏文文本行基线的起始位置信息以及文本行数;根据基线的起始位置,自左向右建立基线,在基线建立的过程中需要根据周围点的像素值动态调整基线;利用估计好的基线,采用连通区域分析法,从两基线之间确定粘连区域的位置并进行切分,最终分离出文本行。本发明提出的一种基于基线估计的藏文历史文献文本行切分方法更加适用于藏文历史文献文本行的切分,比传统的基于投影切分的技术切分精确度高。比起只使用基于投影切分的方式,本发明方法的切分出来的文本行正确率更高。

技术领域

本发明涉及图像处理方法,特别是涉及藏文文本图像文本行分割方法。

背景技术

文字是人类发展的重要载体,是信息传递的主要媒介之一,也是人们记录历史的重要方式之一。藏文是我国第一个具有国际标准的民族文字,也是世界上最古老的文字之一。藏文历史文献保存了藏族文化思想的精髓,是全人类文化思想的宝贵财富。为了能够保护这一古老而又珍贵的历史文化遗产,并方便人们可以按照文字内容进行查阅,将藏文古籍图像转换为文本的方式存储是保护藏文历史文献的一个重要的方法。

一般来说,古籍图像转化成为计算机可读的文本需要经历4个阶段:文字区域的检测,文本行切分,字符切分和文字识别。本发明是针对藏文历史文献转化为文本时文本行切分阶段提出的。比起传统的基于投影的切分方法,使用动态追踪基线的方式更能有效的规避藏文历史文献文档中出现的行与行之间出现的粘连以及文本行的弯曲的现象。

传统的方式一般是通过统计纵向前景像素点的值来确定文本行的起始以及结束的位置。该方法在处理藏文历史文献中有2点不足:(1)只能估计文档中文本行的大体位置,无法处理藏文历史文献当中大量存在的弯曲的文本行。(2)对于藏文历史文献中的粘连部分,传统基于投影的分割方法并不能准确的定位和切分。

发明内容

针对上述传统的处理藏文历史文献方法的不足,本发明提出了一种基于基线估计的藏文历史文献文本行切分方法。该方法在处理藏文历史文献的过程中,使用了动态追踪的方式来拟合文献图像的文本基线的走向。根据基线和连通区域分析的方式定位粘连区域在图像中的位置,并使用基于距离变换(Distance Transform)的方法来确定行切分位置。

实现本发明的方法的主要思路是:提取藏文历史文献的左侧部分图像,去除藏文元音音节点和某些突出的笔画,获取藏文文本行基线的起始位置信息以及文本行数;根据基线的起始位置,自左向右建立基线,在基线建立的过程中需要根据周围点的像素值动态调整基线;利用估计好的基线,采用连通区域分析法,从两基线之间确定粘连区域的位置并进行切分。

一种基于基线估计的藏文历史文献文本行切分方法,包括如下步骤:

(1)提取左侧部分图像

从输入的藏文历史文献图像中提取左侧1/4部分图像,用以分析并提取文本行的基线位置及行数,并将该图像命名为图像A。

(2)去除藏文元音音节点和某些突出的笔画

通过滑动窗口,将原始图像切分成N*M大小的图像块,手动选取其中80个顶部包含基线的图像块作为匹配模板,并使用主成分分析(PCA)方法提取特征。使用同样大小的滑动窗口对图像A进行模板匹配(Template Matching),若窗口中的图像和匹配模板中的某个图像相似度大于一定阈值,则保留窗口中的图像。否则,将其替换成为背景色。将经过模板匹配的图像命名为图像B。

(3)获取藏文文本行基线的起始位置信息以及文本行数

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710849135.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top