[发明专利]一种基于智能匹配的机器翻译装置及其方法有效
申请号: | 201210281280.9 | 申请日: | 2012-08-08 |
公开(公告)号: | CN102831109A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 俞莲 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京瑞恒信达知识产权代理事务所(普通合伙) 11382 | 代理人: | 苗青盛;王凤华 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 匹配 机器翻译 装置 及其 方法 | ||
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于智能匹配的机器翻译装置及其方法。
背景技术
随着技术、经济全球化趋势,克服语言障碍以利国际交流日趋迫切。具体说,一方面令用户直接阅读和理解非母语资料;另一方面,辅助翻译人员更准确、省力和高效地完成笔头翻译工作。
机器翻译技术被寄予厚望,其主要包括语料库(句库/词库)建设和句子翻译两个部分。显然,人工建语料库成本高而效率低。目前,机器建句库时,平行语料比对区域的划分比较机械和繁琐,例如需反复划分比对区域,此外因两种语言句子不一一对应而出现遗漏匹配句并造成语料资源浪费、效率和准确度较低的问题;机器建词库时,对一词多译情况(即同义词问题)不能很好处理;机器翻译主要分规则机器翻译和统计机器翻译,前者繁琐且耗时费力,后者因统计建模过程中完全依赖于对平行语料的概率统计,翻译效果欠佳;模板机器翻译的模板构造是以具体词作基础,使用的灵便性和通配性不够好,且只能解决一些常用固定句型;此外,动词固定搭配这一翻译难点,目前机器翻译尚未很好解决。
通过对机器翻译装置及其方法的现有技术的检索,发现在中国发明专利公开号为CN 101271452A中公开了一种生成译文和机器翻译的方法及其装置,该专利文献(下文中称为D1)具有以下特征:①对待翻译句进行片段分割;②在例句库中查找与所述每个片段对应的一个或多个译文片段;③根据多个特征函数计算片段组合综合得分得出最优片段组合;(多个特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识(在模型中翻译知识被称为特征函数,例如:待翻译句和例句之间的相似度,例句可信度,译文流利度)。然而该专利文献(D1)存在以下缺点:(1)根据特征函数在句库中寻找最优片段组合,而所述特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识,例如:待翻译句和例句之间的相似度,例句可信度,译文流利度。所述“翻译知识”多是基于统计和概率得出,而非从语言特点(尤其是中文)出发,因此准确性不够;(2)D1的译文生成是基于句库中与待翻译句相对应的片段最优组合,所述“片段最优组合”是基于特征函数(翻译知识),而特征函数多是基于统计和概率得出,有较大不确定性,并因此导致一些片段翻译的不确定,造成词汇翻译前后不一致。
同时在另一篇中国发明专利公开号为CN 10174137A中公开了一种评价、选择例句对,构建通用句库,机器翻译的方法及装置,该专利文献(下文中称为D2)具有以下特点:①根据给定例句对的第一语种例句在双语语料库中的覆盖率和/或给定例句对的第一语种和第二语种例句之间的一致性,计算所述给定例句对的得分来构建通用例句库,即例句对的筛选;②机器翻译方法,从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成参考译文。然而该专利文献(D2)存在以下缺点:D2从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成参考译文。所述句子第一语种相似部分和区别部分限于文字本身意思的层面,而对语言特点(如构成句子的关键要素)较为忽略,准确性不够。
发明内容
为克服现有技术的上述缺陷,本发明设计了一种基于智能匹配的机器翻译装置及其方法。该技术主要是基于句子构架匹配和智能组句的汉英机器翻译技术。相对于D1、D2而言,本发明具有以下优点:首先,本申请从语言特点出发,根据短语节点组成的短语框架及其构成规则以及中文核心动词识别规则(预先制定),在句子构架模板库寻找与待翻译句子构架(核心动词+短语框架)匹配的句子进行套译,若未找到匹配句,则按规则(预先制定)进行翻译;充分考虑了构成句子的关键要素即核心动词和短语,准确性较高。其次,本申请的译文生成基于句子构架模板库与待翻译句子构架(核心动词+短语框架)的匹配,或按基于句子构架的规则(预先制定)进行翻译,词语按预先建成的词库翻译,前后一致,准确性好。最后,本申请则通过计算例句对的第一语种与第二语种的匹配率构建句库,并在此基础上根据中文短语节点和短语框架构成规则(预先制定)以及英文核心动词特征生成句子构架模板库,不仅质量较高、容量合理,而且更加科学和智能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210281280.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:航空器子午线轮胎
- 下一篇:一种染料工业酸性废水的清洁处理方法