[发明专利]中文简繁体字文件转换装置无效
申请号: | 96103701.6 | 申请日: | 1996-03-21 |
公开(公告)号: | CN1102779C | 公开(公告)日: | 2003-03-05 |
发明(设计)人: | 郭俊桔 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王勇,叶恺东 |
地址: | 日本大阪*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 简繁体 文件 转换 装置 | ||
技术领域
本发明涉及中文简体字文件和繁体字文件的转换装置。
背景技术
近几年来,中国大陆和台湾之间的交流频繁,两者间的文件来往也随之增加,但是,由于长达40年间没有交往,两地不仅使用的汉字字体不同,就是单词和词汇(日常使用的单个或多个单词的使用方法)等也有很大不同,因此,难以相互理解对方使用的文件。例如,台湾将laser printer叫作“雷射印表机”,而大陆则称之为“激光打印机”。因此,大陆使用的简体字文件和台湾使用的繁体字文件之间相互转换的需要大量增加,在简体字文件和繁体字文件间的相互转换中,需要解决以下的技术和语言方面的困难。
(1)简体字的常用字数大约是8000个,而常用的繁体字比常用简体字多。例如,计算机领域的常用繁体字就有13,053个。所以,会有若干个繁体字对应于一个简体字的情况,如简体字的“后”与繁体字的“后”和“後”相对应。因此,在从简体字文件转换至繁体字文件的情况下,需要选择适当的繁体字。
(2)由于社会、文化的差异,单词及其用法也不相同。例如,用于表现日常所说质量程度的“水准(技术水平等)”,中国大陆称为“水平”,而台湾则称为“水准”。
所以,研制开发了用简体字写的文件和用繁体字写的文件的转换装置。
先有中文简繁体字文件转换装置有诸如中华民国1994年第7次计算机语言学研究会论文集第187至201页的“A Text Conversion SystemBetween Simplified and Complex Chinese Characters Based on OCRApproaches”所述的装置。该论文说明了从简体字文件到繁体字文件转换装置的实例。图1显示了这种装置的结构。在该图中,标号100是可以输入以简体字文件或繁体字文件作为原始文件的原始文件输入单元。标号300是存储各个文字使用频度的文字使用频度表。标号350是存储每个文字特征值的特征数据库。标号200是从图象数据中抽取出文字的文字切取单元。标号210是计算并抽取从图象数据中所选出的文字的特征值的特征抽出单元。标号220是参照文字使用频度表300及特征数据库350,进行文字对比的对比单元。标号500是存储单词的单词转换装置。标号510是存储一般文字信息的基本装置。标号520是存储简体字及繁体字文字代码的代码对应表。标号530是存储事先根据统计等求出的相邻文字之间连接频度的BIGRAM表。标号400是将候补汉字或单词转换为文字网络(Word lattice:指正在处理的各候补的汉字、单词等形成的网络结构)的中文语言装置,它具有单词等转换装置和文字修正装置。标号420是寻找最佳转换路径的汉字和单词转换单元。标号410是通过人工等方法修正误识别文字的文字修正单元。标号600是输出进行转换后所得目标文件的输出单元。
下面以图2(a)所示的简体字文件为例,说明在以上中文简繁体字文件转换装置中从简体字转换到繁体字的转换顺序。
一旦由原始文件输入单元100输入图2(a)所示的简体字文件,就通过OCR(光学字符读取装置)将作为图形的图象读入OCR装置。并且,在通过文字切取单元200抽出各文字的图象之后,由特征抽出单元210计算出各文字的特征值。利用对比单元220,参照文字使用频度表300以及特征数据库350检出候补的简体字。然后进行文字转换及后处理装置的操作。首先,在中文语言装置400中参照代码对应表520取出如图2(b)所示的各个相应的候补字。将已经取出的各候补的目标汉字组合作为检索键,检索单词转换装置500及基本装置510,取出图2(c)所示的候补单词。按照图2(d)所示的文字网络组织已经取出的候补单词。由汉字和单词转换单元420参照BIGRAM表530(根据语言资料库(CORPUS)相邻的两个文字或单词的使用频度),根据Statistical bigram Markov Language Model(采用统计式BIGRAM的马尔可夫语言模型)从文字网络中取出图2(e)所示的最佳的、也即,取出可能性最高的转换路径后,由输出单元600输出。
下面简要说明获得最佳转换路径的方法。
利用BIGRAM的统计数据(P(Ci|Ci-1)和(P(Ci用|Si)),找出能使下述函数值为最大的路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/96103701.6/2.html,转载请声明来源钻瓜专利网。