[发明专利]基于打印字库分析的打印文件鉴别方法有效
申请号: | 201310538041.1 | 申请日: | 2013-10-29 |
公开(公告)号: | CN103810484B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 姚勇;王韦桦;张东方;郭红艳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于打印字库分析的打印文件鉴别方法,属于打印文件鉴别技术领域。其主要步骤包括提取不同型号的样本打印机汉字图像的特征,通过学习过程,把样本训练成为系统所用的不同型号打印机相同汉字所对应的特征值库,依次与特征汉字库匹配,完成对汉字库的粗级分类;在上一步的基础上,利用HU矩特征值,更深层次的表征此汉字,直至表征的特征信息能够唯的辨别出图像中的汉字。本发明中提出了一种以常用字库鉴别打印机型的文字图像计算机识别的方法,理论明确、过程简要、操作方便、快速准确,是一种有效可行的方法。该发明综合多种技术和有用信息,以提高鉴别准确率,为公共安全和物证鉴定部门提供自动化的计算机打印文件检验系统。 | ||
搜索关键词: | 基于 打印 字库 分析 文件 鉴别方法 | ||
【主权项】:
基于打印字库分析的打印文件鉴别方法,其特征在于:步骤包括:提取不同型号的样本打印机汉字图像的特征,通过学习过程,把样本训练成为系统所用的不同型号打印机相同汉字所对应的特征值库,即笔画特征和简化的HU矩特征值,即获取汉字图像的总像素数、交点数这些统计信息,依次与特征汉字库匹配,完成对汉字库的粗级分类,结果作为下一步识别的匹配对象;然后,在上一步的基础上,利用HU矩特征值,更深层次的表征此汉字,直至表征的特征信息能够唯一的辨别出图像中的汉字;其具体过程为:(1)字体的特征提取与字库建立:汉字图像特征的提取,就是根据汉字图像的特点,研究出能够代表它的码字,这个码字对应一个汉字字符,经过训练学习,采用相同的特征表示方法,建立属于这一类型特征的汉字库,步骤为:(1a)提取笔画特征序列:从对汉字的特征分析,笔画方向线索全面、准确、稳定地反映了汉字的组成信息,通过统计待检验文件中汉字文档图像的笔画特征,实现区分不同的汉字字体,并由此来判读其所属的打印机类型,具体实现步骤如下:第1步,将汉字图像平均分为八个区域,按照从左到右,从上到下的顺序依次统计每一个区域内的黑像素点,即值为1的像素点,这样,根据八个区域内的黑像素数可以获得八个特征值;第2步,采用笔划穿越获取特征值,选用横向两次穿越和纵向两次穿越,即在横向的1/3和2/3处分别穿越,记录穿过的黑点数,同理,在纵向依此方法,这样,又可以得到四个特征值;第3步,统计图像中所有黑像素点数,这样,就又获得一个特征值,加上第一步的八个特征值、第二步的四个特征值,共就有十三个特征值;(1b)提取笔画序列的距特征:对于每个笔画特征序列,在考虑特征维数和计算速度的基础上,提取离散HU矩的一阶矩和二阶矩作为特征值:对图像的处理使用离散函数,设f(x,y)为某二维图像函数,则其(p+q)阶原点矩定义为:mpq=Σm=1MΣn=1Nxpyqf(x,y)---(1)]]>μpq=Σm=1MΣn=1N(x-x‾)p(y-y‾)qf(x,y)---(2)]]>其中即为区域的矩心坐标;同时归一化的中心矩表示为ηpq,定义为:ηpq=μpq/μ00Y---(3)]]>其中Y=(p+q)/2;利用二阶和三阶规格化中心矩可导出7个不变矩组,中心矩的阶数越大,所反映的形状细节越多,但同时对噪声越敏感,而且计算量大,并且在离散情况下只有M1仍然具有旋转不变性;选用不变量M1,M2,M3,M4;图像的不变矩在图像发生仿射变换时具有不变性,即当图像在旋转、平移、均匀伸缩变换时,其矩的量值不会发生改变,且M1,M2,M3,M4计算量不是太大,选其作为识别目标的不变参量是合适的,选取φ1=M1,φ2=M2,φ3=M3,φ4=M4作为前4个特征量:M1=η20+η02M2=(η20-η02)2+4η112M3=(η30-3η12)2+(3η31-η03)2M4=(η30+η12)2+(η21+η03)2M5=(η30-3η12)(η30-η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]M6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)M7=(3η12-η30)(η30+η12)[(η30+η12)2-3(η21+η03)2](3η21-η03)(η21+η03)[3(η03+η12)2-(η12+η30)2]---(4)]]>(1c)标准字库的建立:提取不同型号的样本打印机汉字图像的特征,通过学习过程,把样本训练成为系统所用的不同型号打印机相同汉字所对应的特征值库,即以最常用的标准汉字为对象,字体分别为常用的宋体、仿宋体、楷体、黑体、隶书和幼圆,字号为一至六号,选取简化的HU矩特征值,对于待识别汉字,采用二级编码的方式:首先获取汉字图像的总像素数、交点数这些统计信息,依次与特征汉字库匹配,完成对汉字库的粗级分类,结果作为下一步识别的匹配对象;其次,在上一步的基础上,利用HU矩特征值,更深层次的表征此汉字,直至表征的特征信息能够唯一的辨别出图像中的汉字;(2)分类器设计:通过待检文字与标准字库特征值的对比,实现文件打印机类型的鉴别;在多种因素制约下,在处理大字符集识别问题时,选择最小距离分类器;采用基于置信度分析的粗、细分类两级分类的策略来完成待识别文字符所属类别的判断:(2a)粗分类:设计一种欧氏距离分类器,设Mi是待识别字体的第i个HU矩特征值,是第k种字体的第i个标准HU矩特征均值,当满足下面条件时,待识别字体被认为是第k0种字体,其中G为字体类别数;k0=argmin1≤k≤G{Σi=14(Mi-Mik)2}---(5)]]>(2b)细分类:采用修正二次鉴别函数MQDF作为细分类度量,它是马氏距离的一个变形,其函数形式为:gi(X)=1h2{Σi=1d(xi-mij)2-Σj=1k(1-h2λjj)2[(X-Mi)Tφij]2+ln(h2(d-k)Πj=1Kλij)}---(6)]]>其中λij和φij分别为第j类样本的协方差矩阵的第i个特征值和特征向量,K表示所截取的主本征向量的个数,即模式类的主子空间维数,其最优值由实验确定,h2是对小本征值的实验估计;MQDF产生的是二次判决曲面,因只需估计每个类别协方差阵的前K个主本征向量,避免了小本征值估计误差的负面影响;MQDF鉴别距离看作是在d维主子空间内的马氏距离和剩余的(d‑K)维空间内的欧氏距离的加权和,加权因子为1/h2;(2c)置信度计算:设粗分类器的输出候选集为{(c1,d1),(c2,d2),...(cn,dn)},n为候选集容量,dn和dn分别为候选字符和对应的粗分类距离;若c1已为输入字符的正确分类时,则细分类没必要进行;依据粗分结果的置信度fcon的大小决定是否需要进行细分类,采用输出的距离作为度量,依下计算置信度:fcon=(d2‑d1)/d1 (7)置信度低于所设阈值时,将粗分类候选集送入细分类器处理,否则直接输出粗分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310538041.1/,转载请声明来源钻瓜专利网。