[发明专利]字符识别系统无效
| 申请号: | 86107537.4 | 申请日: | 1986-09-27 |
| 公开(公告)号: | CN1008022B | 公开(公告)日: | 1990-05-16 |
| 发明(设计)人: | 阿部惠子 | 申请(专利权)人: | 索尼公司 |
| 主分类号: | G06K9/34 | 分类号: | G06K9/34 |
| 代理公司: | 中国专利代理有限公司 | 代理人: | 李先春 |
| 地址: | 日本东京*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符 识别 系统 | ||
本发明涉及一种字符识别系统,用来识别主文件的字符。更确切地说,本发明涉及一种这样的字符识别系统,它特别适于识别具有相互分离字符成分的字符,例如汉字字符、日文的平假名和片假名字符等等。此外,本发明还涉及这样一种字符识别系统,它适用于从混有日文或汉字字符以及如像英语、德语等字母字符的主文件中采集字符数据。
近年来,已提出了多种用来从主文件中采集字符数据的识别系统。在这些字符识别系统中,当从用日文、汉字写成的主文件中采集字符数据时会遇到一个困难,这个困难是由于在日文、汉字或其它相应语言的字符中出现了不连贯的或相互分离字符成分。例如,含义为河流的日文汉字字符“川”具有三个大体上垂直延伸並相互分离字符成分,而发“i”音的日文平假名字符“ぃ”具有两个大体上垂直並相互分离的字符。本申请将具有相互分离字符成分的字符称之为“分离字符”。
字符识别系统通常提取或分割主文件上的每一个字符,並将字符结构同一已予置的数据相比较,通常把待识别的字符转换成适合于计算机的编码,如ASCll码等。由于字符之间有间隔或不连贯,要准确地提取分离字符将是很困难的。
另一方面,对于英语、德语或其它一些字母顺序排列的语言,在一个字中,各字符之间的间隔比各个字之间的间隔显然要窄。由于一个字中的字母字符之间的间隔窄,当这种字母字符用于文件中,並由适用于从日文或汉字文件采集数据的字符识别系统读出时,这个字的各个字符之间的间隔往往忽略,其结果是以整个字作为一个单元的图象来提取,这样将导致不可能识别文件中的每一个字母字符。
当字符识别系统用于从既混有日文又有汉字字符以及字母字符的文件中读取或提取字符数据时,字符识别问题就显得更为严重。
此外,在以往的字符识别系统中,提取识别字符和识别字符是按相互独立的步骤进行的,在一般情况下,提取字符的步骤是先于识别字符的步骤,当欲提取的字符的结构同已予置的字符模式不相符时,该字符被认为是不可识别的字符,这就大大地降低了字符识别系统的字符识别率。
为此,本发明的一个目的在于提供一个字符识别系统,它能够解决在一般系统中存在的困难,而且能够提供相当高的识别率。
本发明的另一个更为特殊的目的是要提供一个字符识别系统,它甚至能够从混有日文或汉字字符以及字母字符所构成的文件中准确地提取字符数据。
本发明的进一步的目的还在于提供一个字符识别系统,它能将分别删切的图象数据组合,区分删切图象数据和重新删切等,以保证识别主文件上的字符。
为了达到上述的以及另外的目的,按照本发明,一个字符识别系统提取包括一个最小字符单元的字符块,字符识别系统在字符识别过程中具有重新组合和/或重新提取字符块的能力,字符块的重新组合和重新提取是在每一字符块提取滞后的基础上加以控制的,因而使重新组合和重新提取能有效地进行。
在提取字符块的最佳处理程序中,在单个字符块中,实质上相互独立但又相毗邻的字符受到检验,並分成两个或更多的字符块,以减少包含在每一个字符块中的字符。
按照本发明,根据日文和日文汉字特定的比例。字符识别系统进而具有从字母字符中区分日文和日文汉字字符的能力,所述的日文和日文汉字字符的比例完全不同于字母字符的比例。
根据本发明的一种观点,一个字符识别系统包括:用于采集文件图象並产生一个包含文件图象数据的视频信号的第一装置;用来提取包含文件中单独字符图象数据的字符块的第二装置;用来组合2个或3个字符块以形成一个组合字符块的第三装置;用来重新提取字符块以形成一个重新被提取的字符块的第四装置;按照予定的算法进行字符识别並输出识别字符显示信号的第五装置;用来控制第三、第四、第五装置工作的第六装置,它是用这种方式工作的,即当第五装置未能识别字符块的一个字符时,第六装置可以有选择地控制第三和第四装置中的一个装置,以保证用选择的第三和第四装置中的一个所形成的字符块去识别第五装置中的字符。
在最佳实施例中,第二装置在一个最小的字符单元上提取字符块,第二装置限制字符的范围,使其具有与最小字符单元的上、下和两侧齐平的边缘。第二装置检测各相邻单独的字符之间的重叠,以便将相应的各单独字符分别形成字符块。此外,第二装置还可消除一个字符块的字符图象数据中的噪声分量。
在最佳结构中,光学字符识别系统还包括第七装置,它用来检测一予定字符以及对予定字符选择一种辅助的算法去控制第五装置的工作,这种选择的辅助算法比除予定字符之外的其它字符所用的算法要简单。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/86107537.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聚合反应器控制温度的方法
- 下一篇:聚合物胶料及其使用方法





