[发明专利]一种维吾尔文图像文件的标注方法有效
申请号: | 201310244905.9 | 申请日: | 2013-06-19 |
公开(公告)号: | CN103345481A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 哈力木拉提·买买提 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46;G06K9/20 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴开磊 |
地址: | 830046 新疆维吾*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 维吾尔文 图像文件 标注 方法 | ||
技术领域
本发明涉及维吾尔文字识别领域,尤其涉及一种维吾尔文图像文件的标注方法。
背景技术
维吾尔文是新疆等地少数民族所使用的拼音文字。现行维吾尔文有32个字母,自右至左横书。每个字母按出现在单词首、单词中、单词末的位置有不同的形式。维吾尔文形成图像文件时,根据实际需要对文件(例如:出版物上的维吾尔文)进行扫描得到图像文件,然后进行识别图像文件上的维吾尔文工作。
在识别维吾尔文之前还需要对图像文件中图像单词进行标注工作(即将图像文件与文本文件的内容一一对应起来),其工作难点在于:如何正确的标注图像文件的标注信息。然而在现有技术中,图像文件通过人工标注文本信息,其缺点在于人工标注效率很低,另外很容易出现错误的标注信息,然而由于数据处理量较大,通过人工操作方法在大量的文本文件中找到错误标注信息再进行校正和标注,同样会浪费很长的时间,这样整个标注过程的处理效率都很难得到保障。
发明内容
本发明的目的在于提供一种维吾尔文图像文件的标注方法,以解决上述问题。
为了达到上述目的,本发明的技术方案是这样实现的:
一种维吾尔文图像文件的标注方法,包括如下步骤:
预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息;
对不相似的单词图像对应的错误标注信息进行校正,再执行标注操作;
所述图像文件包括多个维吾尔文扫描图像文件;所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件。
与现有技术相比,本发明实施例的优点在于:
本发明提供的一种维吾尔文图像文件的标注方法,包括如下步骤:
首先,预先存储经扫描处理的多个图像文件以及与所述图像文件一一对应的文本文件;这是实现查找错误标注信息的预处理过程。
然后,提取每个页图像文件的图像特征向量和对应的每页文本文件的特征向量,并分析图像文件的特征向量与文本文件的特征向量的相似性;显然每页图像文件中的单词图像与文本文件中的单词标注信息都是一一对应的,如果两个文件相似度很高,那么图像文件中的单词图像被文本单词正确标注;相反地,如果不相似,那么说明图像文件中的单词图像存在错误标注。
利用上述原理并结合二分法迭代计算相似性查找错误标注信息,在不断的使用二分法的过程中,不断地缩小不相似区域,并最终确定错误标注信息;利用二分法初始化查找时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,判断当前图像文件的子区域与当前文本文件的子区域相似性,若相似,则说明单词图像标注信息正确,对相似单词图像部分进行自动标注;若不相似,则可以判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息。然后将在含有错误标注信息的子区域继续分成两个等分子区域,再判定相似性,不断缩小错误标注信息的区域,最终确定单词的精确区域位置,这样经过二分法迭代(多次)查找后,并最终确定不相似的单词图像以及单词图像对应的错误标注信息。对不相似的单词图像对应的错误标注信息进行校正标注信息,再执行标注操作;这样便可以完成了完整的自动标注流程。
本发明提供的维吾尔文图像文件的标注方法,利用数字图像处理技术结合文件特征向量的相似性特点,采用二分法迭代原理,从而快速地查找到了文本文件中的错误标注信息。
附图说明
图1为本发明实施例提供的维吾尔文图像文件的标注方法的流程示意图。
具体实施方式
下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。
参见图1,本发明实施例提供了一种维吾尔文图像文件的标注方法,包括如下步骤:
步骤S100、预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310244905.9/2.html,转载请声明来源钻瓜专利网。