[发明专利]多语言智能预处理实时统计机器翻译系统的预处理模块在审
申请号: | 201710202532.7 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107038160A | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 张昱琪;唐亮 | 申请(专利权)人: | 唐亮 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙)11210 | 代理人: | 邝溯琼 |
地址: | 100010 北京市朝阳区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 智能 预处理 实时 统计 机器翻译 系统 模块 | ||
技术领域
本发明涉及人工智能机器翻译技术领域,具体来说,涉及一种多语言智能预处理实时统计机器翻译系统的预处理模块。
背景技术
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程,而且两种自然语言在意义上应该是等价的。
目前,一种比较成熟而且主流的机器翻译方法是基于统计的方法,该方法的优点在于几乎不需要人工撰写翻译规则,所有的翻译信息都是自动地从语料中学习而获得,因此该方法最大程度地发挥了计算机高速运算的特点,极大地降低了人工成本。
基于统计模型的机器翻译技术从平行语料库中学习从一种语言A到另一种语言B的短语翻译。在翻译新的句子时,把输入语言A的句子分解成若干短语,根据学习来的短语(A语言)-短语(B语言)的共现概率,把语言A的句子翻译成语言B的句子。整个学习、翻译过程完全根据统计模型。
目前机器翻译的预处理模块功能不并完善,大多是在接收模块接收之后进行简单的错别字判断、标点预测之后即由翻译模块进行训练和翻译,这样不仅增加了机器翻译的难度,而且对于小概率词语,翻译模块可能会出现翻译不准确的问题。
发明内容
针对相关技术中的上述技术问题,本发明提出一种一种多语言智能预处理实时统计机器翻译系统的预处理模块,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种多语言智能预处理实时统计机器翻译系统的预处理模块,所述预处理模块包括文本预处理模块和语音识别结果预处理模块,所述文本预处理模块用于对文本输入的语言进行单词规范化操作、类别识别标注及语块语序调整;所述语音识别结果预处理模块用于对语音进行单词规范化操作和标点预测。
进一步的,所述文本预处理模块包括单词规范化子模块,所述单词规范化子模块用于使待翻译语言在词语层面上更加接近目标语言。
优选的,当待翻译语言为中文,翻译目标语言是英语时,文本预处理模块对中文进行分词,并在词语间插入空格。
优选的,当待翻译语言为德语,翻译目标语言是英语时,文本预处理模块对德语中的复合词进行拆分,并增加德语与英语句子中词语一对一的对应关系。
进一步的,所述文本预处理模块还包括类别识别标注子模块,所述类别识别标注子模块用于对待翻译语言文本中的数字、日期、时间、URL分别标注为$number, $date, $hour和$www,并预先将类别中的内容翻译成目标语言。
进一步的,所述文本预处理模块还包括语块语序调整子模块,所述语块语序调整子模块用于对待翻译语言的句子进行语法分析,然后依据自动学习的规则对待翻译语言的语块顺序进行调整,使得待翻译语言的语序更加接近目标语言的语序。
优选的,所述的语法分析包括短语的自动识别和/或语法树的生成。
优选的,所述待翻译语言的句子经过语块语序调整子模块调整语序后以最优语序输出,或者把若干个较优语序以字格形式输出。
进一步的,所述的语音识别结果预处理模块包括单词规范化子模块,所述单词规范化子模块用于使待翻译语言句子中的词语颗粒更加接近目标语言的词语。
优选的,所述的语音识别结果预处理模块还包括标点预测子模块,所述标点预测子模块用于根据上下文和词语间的停顿判断语音识别输出中句号的位置。
本发明的有益效果:本发明的预处理模块能够对待翻译的文本语言进行单词规范化操作、类别识别标注以及语块语序调整等基本操作,方便后续翻译模块对待翻译语言文本的翻译;或者对语音语言进行单词规范化操作或者对语音流中的标点进行预测等预处理,方便后续机器翻译模块的翻译;本发明预处理模块对小概率词语进行标注并优先翻译,能够提高对小概率词语翻译的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的文本预处理模块的流程图;
图2是根据本发明实施例所述的语音识别结果预处理模块的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐亮,未经唐亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202532.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吊装带穿芯机
- 下一篇:一种氨纶卷绕机卷绕装置