[发明专利]德汉翻译系统的词法分析方法无效
| 申请号: | 95108230.2 | 申请日: | 1995-07-26 |
| 公开(公告)号: | CN1063559C | 公开(公告)日: | 2001-03-21 |
| 发明(设计)人: | 陈肇雄 | 申请(专利权)人: | 深圳科智语言信息处理有限公司北京分公司 |
| 主分类号: | G09B19/06 | 分类号: | G09B19/06 |
| 代理公司: | 北京市专利事务所 | 代理人: | 张卫华 |
| 地址: | 100088*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 翻译 系统 词法 分析 方法 | ||
本发明是一种德汉翻译系统的词法分析方法,属于计算机科学中的机器翻译
技术领域。
机器翻译是指利用电子计算机将一种自然语言转换成另一种自然语言表达的过程,一般指整句或全文的翻译。对原文句子进行词法分析是机器翻译过程中的第一个阶段,其基本任务是在不考虑上下文的情况下处理词的形变问题,即:根据词法变化规律,分析它们的词法特征。词法分析算法取决于系统内部表示单词及词法规则的方法。目前比较普遍采用的两种实现算法是:描述性词法分析算法和过程性词法分析算法。
采用描述性词法分析算法实现时,字典入口就包括了单词的所有可能形变,每一形变都带有与其相关的词法信息。在这种情况下,系统并不需要进行词法分析,因为词法分析的结果已存放在字典中,因此只要从字典中找出词形,并把相关的词形信息拷出来就行了。这种方法的特点是分析处理速度快,但由于需要把单词的各种形变及其词形信息都存入字典,使得字典入口数目大量增加,存贮空间占用太大,检索速度太慢。另外,对于德语这种变化形式丰富的语言,要把每个单词的所有形变都总结出来,并提供相应的词形信息,工作量是十分可观的。所以,这一方法用在源语言是德语的词法分析上是存在许多困难的。
采用过程性词法分析算法时,在字典只存贮各单词的基层形式。分析处理时,词法分析程序通过比较,区分出词根和词缀以及该词缀所具有的词形特征。查字典时,根据词根查出原形单词的定义,并把分析出来的词形特征信息加入到相应的原形单词的定义中。在这种方法中,词法分析算法所依据的词缀将直接出现在程序的比较语句中。因此,这种方法与上述的描述性方法相比,虽然大大减少了字典的入口数量和存贮空间,提高了字典检索速度,减少了字典编撰工作量,但由于德语形变十分丰富,词缀繁多,规律复杂,使得算法臃肿繁复,修改和维护都十分困难。
本发明的目的是提出一种能区分所有德文单词词形变化的德汉翻译系统的词法分析方法,这种方法通过使用词法规则知识来表示德语中的单词形变规律,既克服了描述性词法分析算法中字典入口数量和存贮空间太大的不足,又克服了过程性词法分析算法程序中比较机构臃肿、不易修改与维护的缺陷。这种方法可将德语的单词分离成德语的原形单词和附加的词形特征属性,并生成单词的内部表示,以供德汉翻译系统的分析--转换之用。
本发明的目的是这样实现的:
一、首先建立五个知识库:德语基本单词库、规则变化词缀库、不规则变化单词库、缩写词库、不需要再进行词法分析的单词库。
德语基本单词库中每个单词有如下的内容:
·原形单词符号
·单词的分类标识符和词义属性标识符
·上下文区分函数
·单词的中文解释
·该单词的词组
规则变化词缀库中每条词缀有如下的内容:
·词缀
·添加字符
·条件
·追加的词形特征属性符号
不规则变化单词中每个不规则单词有如下的内容:
·不规则单词
·原形单词
·追加的词形特征属性符号
缩写词库以含′为特征,有如下内容:
·缩写词
·该词的完整词形。
不需要再进行词法分析的德语单词库中的内容只有德语单词的集合,通过访问集合中元素的方法可访问其内容。这个库的目的是使得词法分析算法确认当前分析的德语单词只有原形,不可能有形变单词。
二.在接收一个德语单词之后,执行如下词法分析算法步骤:
(1)首先访问德语基本单词库,查询单词是否在库中,若不在,则执行步骤(2);否则记录已有一个德语原形单词,继续执行步骤(2);
(2)通过访问不需要再进行词法分析的单词库,如果该单词在该库中,则不进行变形单词分析,直接执行步骤(7);
(3)如果该单词具有“’”后跟几个字母的形式,则查找缩写词库,然后从步骤(1)开始执行;
(4)访问不规则变化的单词库,如果该单词在该库中,则直接在不规则单词库中取出该单词的原形单词和追加的词形特征属性,并记录下来,然后执行步骤(7);
(5)按照步骤(6)遍访规则变化词缀库中的每一条词缀规则,遍访结束后执行步骤(7);
(6)如果根据当前位置的词缀,能将该单词分离成该单词的词干和词缀两部分,则根据规则中的<添加字符>将单词还原成原形,检查规则中的<条件>是否满足,如果满足则取出追加的词形特征属性,记录下来,然后取出下一条词缀按步骤(5)继续执行;
(7)如果该单词没有原形单词,则转例外出错处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳科智语言信息处理有限公司北京分公司,未经深圳科智语言信息处理有限公司北京分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/95108230.2/2.html,转载请声明来源钻瓜专利网。





