[发明专利]基于打印字库分析的打印文件鉴别方法有效
申请号: | 201310538041.1 | 申请日: | 2013-10-29 |
公开(公告)号: | CN103810484B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 姚勇;王韦桦;张东方;郭红艳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 打印 字库 分析 文件 鉴别方法 | ||
技术领域
本发明涉及一种基于打印字库分析的打印文件鉴别方法,属于打印文件鉴别技术领域。
背景技术
随着办公自动化的普及,打印机在日常生活和工作中得到广泛的应用。而且打印文件作为最主要的书面记载形式,无论在刑事诉讼,还是民事、行政诉讼中,打印文件检验的送检量都急剧增加,检验要求主要包括文件的真伪鉴别、来源检验(机台同一认定)和形成时间检验等三个方面。其中如何利用计算机应用技术实现快速判断打印机类型的方法,将为案件的侦查工作提供重要线索,而这类方法至今未见报道,甚至这方面的研究资料也很缺乏。
由于各种打印机的工作原理和打印用字库不尽相同,打印字迹应存在差异,所以通过提取打印字体,并对其进行识别分析,再将字符与字体库经过匹配,利用分类器来鉴别出生成考察打印文件的打印机。由此字体识别技术的运用非常关键,目前字体识别技术中,有的是运用小波分析的方法提取单个汉字的频域特征做训练样本,使用修改的二次分类器进行单字符的识别。有的是采用基于小波能量分布比例特征的小波分析方法应用BP神经网络在文字无关的条件实现识别。但是当字体数量增多时上述方法的识别效果会显著下降。还有基于纹理分析、利用Gabor滤波器提取汉字字体特征进行汉字字体识别。其识别速度快,识别率很高,但它的维数高,计算量大。此外还有利用灰度基于经验模式分解的字体识别。这种方法识别维数低(只有9维)、计算量小且识别率高。以上方法对于单字符是无法进行提取的。也有是针对单字符的字体识别技术,主要是利用小波变换提取字符特征,对七种单字符汉字字体进行识别.其识别率高。但特征维数达256维,这会严重影响识别器的识别速度,增加计算量。
汉字是图形文字,字数多、字型变化丰富,结构非常复杂,其平均笔划数是英文字母的十倍以上。而且有多种字体,印刷汉字字体主要有宋体、仿宋体、楷体、黑体、隶书和幼圆等。它们之间不同点在于:整体字形的不同.例如从整个字的字形上看,宋体字形正方;仿宋体是摹仿宋版书的字体,字形略长;楷体字形类似于手写体,正方;黑体字形方正;隶书的基本结构是方形的,形体方扁;幼圆字形圆滑,形体略大。不同字体的笔划在粗细变化上是不同的。各个文字的大小相差较大。还有笔划装饰及方向角度不同,同一基本笔划在不同字体的起笔和收笔处明显不同。另外基本笔划书写的角度也不同。
由于汉字是由这些横、竖、撇、捺、点、折、钩等基本笔画进行排列、组合而构成。因此,一个汉字可由“横、竖、撇、捺”代表其特征。同样,各种字体的特点也是体现在笔画当中的,字体也可由“横、竖、撇、捺”代表其特征。
发明内容
本发明的目的在于利用打印件字体字库的分析来鉴别打印机型,在尽可能减少工作量的条件下充分利用有效信息,采用常用的字体和字号判断常用的打印机型,以便为扩大研究范围做准备。
为了实现上述目的,本发明的技术方案如下。
一种基于打印字库分析的打印文件鉴别方法,其主要步骤包括:提取不同型号的样本打印机汉字图像的特征,通过学习过程,把样本训练成为系统所用的不同型号打印机相同汉字所对应的特征值库,即笔画特征和简化的HU矩特征值,即获取汉字图像的总像素数、交点数,依次与特征汉字库匹配,完成对汉字库的粗级分类,结果作为下一步识别的匹配对象;然后,在上一步的基础上,利用HU矩特征值,更深层次的表征此汉字,直至表征的特征信息能够唯一的辨别出图像中的汉字。
其具体步骤包括为:(1)字体的特征提取与字库建立;(2)分类器设计。其中:
(1)字体的特征提取与字库建立:汉字图像特征的提取,就是根据汉字图像的特点,研究出能够代表它的码字,这个码字对应一个汉字字符,很显然,不同汉字图像的码字必须不相同,码字代表的字符具有唯一性。然后,经过训练学习,采用相同的特征表示方法,建立属于这一类型特征的汉字库。
(1a)提取笔画特征序列:从对汉字的特征分析,笔画方向线索全面、准确、稳定地反映了汉字的组成信息,通过统计待检验文件中汉字文档图像的笔画特征,实现区分不同的汉字字体,并由此来判读其所属的打印机类型,具体实现步骤如下:
第1步,将汉字图像平均分为八个区域,按照从左到右,从上到下的顺序依次统计每一个区域内的黑像素点(即值为1的像素点),这样,根据八个区域内的黑像素数可以获得八个特征值。
第2步,采用笔划穿越获取特征值,选用横向两次穿越和纵向两次穿越,即在横向的1/3和2/3处分别穿越,记录穿过的黑点数,同理,在纵向依此方法,这样,又可以得到四个特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310538041.1/2.html,转载请声明来源钻瓜专利网。