[发明专利]一种维吾尔文图像文件的标注方法有效
| 申请号: | 201310244905.9 | 申请日: | 2013-06-19 |
| 公开(公告)号: | CN103345481A | 公开(公告)日: | 2013-10-09 |
| 发明(设计)人: | 哈力木拉提·买买提 | 申请(专利权)人: | 新疆大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46;G06K9/20 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴开磊 |
| 地址: | 830046 新疆维吾*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 维吾尔文 图像文件 标注 方法 | ||
1.一种维吾尔文图像文件的标注方法,其特征在于,包括如下步骤:
预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息;
对不相似的单词图像对应的错误标注信息进行校正,再执行标注操作;
所述图像文件包括多个维吾尔文扫描图像文件;所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件。
2.如权利要求1所述的维吾尔文图像文件的标注方法,其特征在于,
所述提取每页图像文件的特征向量和对应的文本文件的特征向量,包括如下步骤:
在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量;
在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量;
其中,所述单词包括一个或多个连体段。
3.如权利要求2所述的维吾尔文图像文件的标注方法,其特征在于,
所述在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量,包括如下步骤:
在图像文件中,求取各个单词之间的间隔宽度GWj及各个连体段之间的间隔宽度GWj,其中:j=1、2、3…m,m为常数;
预设宽度阈值TW作为单词界限,在整页图像文件的区域中,依照由上到下,从右向左的顺序计算相邻的每两个连体段的间隔宽度GWj;
判断GWj与TW的大小关系,若GWj大于或等于TW,则判定两个相邻的连体段之间的间隔为不同单词图像之间的空白,并确定单词图像的一个边界,经过多次判断确定单词图像的另一个边界,确定完整的单词图像;若GWj小于TW,则判定两个相邻的连体段之间的间隔为同一单词图像之间的间隙;
计算得到每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数,并作为图像文件的特征向量;
其中,单词图像之间的间隔称为空白,同一单词图像内部的连体段之间的间隔称为间隙。
4.如权利要求3所述的维吾尔文图像文件的标注方法,其特征在于,
所述在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量,包括如下步骤:
在整页文本文件的区域中,依照由上到下,从右向左的顺序查找空格,经过查找确定完整的单词;
计算得到每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数,并作为文本文件的特征向量;
其中,相邻的不同单词之间包括一个空格,单词中的连体段由维吾尔文11个字母:确定。
5.如权利要求4所述的维吾尔文图像文件的标注方法,其特征在于,
所述利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息,包括如下步骤:
利用二分法初始化查找处理时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,利用余弦函数分别计算两个子区域内图像文件的特征向量与对应的子区域内文本文件的特征向量的相似度值,判断相似度值是否大于相似度阈值;若是,则判定单词图像标注信息正确,对相似单词图像部分进行自动标注;
若否,则判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息,在含有错误标注信息的子区域内继续利用二分法迭代查找确定单词的位置,并不断缩小错误标注信息所在区域,最终确定不相似的单词图像以及单词图像对应的错误标注信息。
6.如权利要求5所述的维吾尔文图像文件的标注方法,其特征在于,
所述余弦函数为:
其中,图像文件的特征向量为xi;i=1、2、3…n,n为常数;文本文件的特征向量为yi;i=1、2、3…n,相似度值为r;
所述图像文件的特征向量包括每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数的特征向量;
所述文本文件的特征向量包括每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数的特征向量;
为图像文件区域内的特征向量的均值;为文本文件区域内的特征向量的均值;
所述相似度阈值为t;t为正数;当r≥t时,图像文件所在区域与对应文本文件所在区域相似;当r<t时,图像文件所在区域与对应文本文件所在区域不相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310244905.9/1.html,转载请声明来源钻瓜专利网。





