[发明专利]印刷线生成方法无效
| 申请号: | 200710106935.8 | 申请日: | 2007-05-09 |
| 公开(公告)号: | CN101303731A | 公开(公告)日: | 2008-11-12 |
| 发明(设计)人: | 蔡文瀚;吕信德 | 申请(专利权)人: | 仁宝电脑工业股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20 |
| 代理公司: | 北京中原华和知识产权代理有限责任公司 | 代理人: | 寿宁;张华辉 |
| 地址: | 中国台*** | 国省代码: | 中国台湾;71 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 印刷 生成 方法 | ||
技术领域
本发明是有关于一种文字辨识方法,且特别是有关于一种英文语系文字的印刷线的生成方法。
背景技术
在资讯爆炸的时代,一般人时常会需要阅读大量的书籍或报章杂志,若看到值得保存的文章段落或是重点时,通常是采用影印或剪辑的方式存档或是直接用笔标记。而对于文字工作者来说,在阅读完一篇文章后,若需要使用里面的资料,就必需藉由重新键入(Key-in)的方式输入到电脑中,才能够对此资料进行编辑或存档的动作,不仅费力且耗时。
为了解决这个问题,目前有业者研发了光学辨识技术,使用者只需藉由一般的扫描器设备,将所欲保存的文件扫描成图档,再利用文字辨识的软件,将此图档中的文字部份撷取出来,并转换成对应的数位字元。提供使用者可以迅速取得文件的电子档,而能够方便地编辑或处理文件。目前的光学辨识技术所运用的领域十分广泛,举凡图书馆文献资料存档、企业内部文件管理,甚至证照、票据的辨识,都可利用此光学辨识技术轻易达成,不仅能精准地辨识资料,更能够省下大量资料比对与查核的人力与时间。
光学文字辨识通常简称为OCR(Optical Character Recognition),其主要用途是针对既有的书面文件进行文字识别的动作。首先文件需先透过平台型或掌上型扫描器,将欲辨识的文件先行扫描成图档。由于在扫描文件时可能会因为文件本身不干净、字元模糊,或是扫描器解析度的问题,使得输入的影像可能存在着一些杂讯,这些杂讯都会影响到后续文字辨识的准确率。因此,光学文字辨识软件会先针对扫描的文件图档进行倾斜校正、杂讯移除、影像边缘锐利化等处理。接着,光学文字辨识软件会对处理后的图档进行图文分离的动作,将文件中所有的文字、图形和表格分离,并且针对部份文字笔划不连接的情形,正确地切割或合并文字。然后,光学文字辨识软件将进行文件辨识的动作,利用将文字图像拿来与文字资料库比对,并同时透过中文校正的功能,进行词库、前后文相关字词的确认后,最后输出精准的辨识的结果。辨识出来的文字可直接存成Word、PDF、纯文字格式的档案,如此不但可减轻资料输入的负担,同时也可增加资料输入的速度及正确性。
然而,现行的光学文字辨识软件仍存在着许多问题,这些问题时常会造成文字辨识错误或无法辨识,而造成使用者的困扰。举例来说,在扫描文件时可能会因为文件摆放不正,而造成扫描的图档倾斜、倒置(横向移动)或是比例失真(纵向移动),或者是因为字元的字型大小不同但形状相同,而造成无法辨识大小写,以及标点符号字型小不易辨识等情形。
发明内容
有鉴于此,本发明的目的就是在提供一种印刷线生成方法,藉由找出一行印刷文字的多条印刷线,而能够提供后续辨识文字时,判断文字方向性、文字大小写及标点符号、校正文字影像倾斜之用。
为达上述或其他目的,本发明提出一种印刷线生成方法,此方法适用于产生一行印刷文字的多条印刷线,其中这行印刷文字中包括多个印刷字元,此方法包括下列步骤:a.扫描一行印刷文字,并标记这行印刷文字中各个印刷字元的第一边缘及第二边缘;b.分别撷取各个印刷字元的第一边缘的一个第一边缘参考点及第二边缘的一个第二边缘参考点;c.利用最小平方法(least square),求取这些第一边缘参考点所趋近的第一直线;d.以此第一直线作为第一基准线,计算各个第二边缘参考点与此第一基准线之间的垂直距离;e.根据各个第二边缘参考点所算出的垂直距离,利用一种群聚演算法将这些第二边缘参考点区分为第一群及第二群;f.利用最小平方法,分别求取此第一群及第二群的第二边缘参考点所趋近的第二直线及第三直线;g.以此第一群及第二群中参考点数目最多者所对应求出的第二直线或第三直线作为第二基准线,计算各个第一边缘参考点与此第二基准线之间的垂直距离;h.根据各个第一边缘参考点所算出的垂直距离,利用群聚演算法将这些第一边缘参考点区分为第三群及第四群;i.利用最小平方法,分别求取此第三群及第四群的第一边缘参考点所趋近的第四直线及第五直线;以及j.以第二直线、第三直线、第四直线及第五直线作为此行印刷文字的印刷线。
在本发明的一实施例中,上述的步骤a.之后更包括:a1.辨识并调整此行印刷文字的一主方向,其中此主方向包括水平方向及垂直方向其中之一。
在本发明的一实施例中,上述的步骤a.之后更包括:a2.分别计算各个印刷字元的字元高度;a3.将各个印刷字元的字元高度与一个预设高度值比较,而将字元高度小于此预设高度值的印刷字元归类为小字元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于仁宝电脑工业股份有限公司,未经仁宝电脑工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710106935.8/2.html,转载请声明来源钻瓜专利网。





