[发明专利]一种面向机器翻译的多策略英文长句分割方法有效
| 申请号: | 201510441708.5 | 申请日: | 2015-07-24 |
| 公开(公告)号: | CN105068990B | 公开(公告)日: | 2017-12-19 |
| 发明(设计)人: | 冯冲;杨书立;黄河燕 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
| 代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 唐华 |
| 地址: | 100081 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 机器翻译 策略 英文 长句 分割 方法 装置 | ||
技术领域
本发明涉及一种机器翻译译前预处理方法,特别涉及一种面向机器翻译的多策略英文长句分割方法,属于自然语言处理机器翻译技术领域。
背景技术
如今,互联网已经非常发达并且遍布全球。借助互联网,来自不同国籍、使用不同语言的人们能够随时随地分享信息,人们也越来越迫切希望能够快速畅通地获得互联网上的有用信息。而面对着如今互联网上海量的信息,传统的人工翻译显得力不从心。因此,在这样的背景之下,机器翻译技术有着极大的市场,各国学者也在这一领域做了许多研究工作。
近年来,机器翻译技术有了长足的发展。现有机器翻译系统主要分为基于规则的翻译系统、基于统计的机器翻译系统和基于实例的机器翻译系统。基于规则的翻译系统主要是利用规则,进行源语言到目标语言的转换;基于统计的翻译系统主要是利用双语平行语料来估计翻译模型的各个参数;基于实例的翻译系统主要是基于句子相似度的,系统在语料库中寻找与待翻译句子相似的句子来进行翻译。
虽然如此,机器翻译系统仍然面临着许多难题和挑战,长句的翻译便是其中之一。由于不同的原因,以上三种翻译系统在长句的翻译上都面临着很大的困难:随着句子长度的增加,译文的质量往往会急剧下降。因此如何将长句分割成较短的句子、进而提高机器翻译的质量,在近年来成为研究的热点之一。
许多早先的方法是基于规则的,即使用规则匹配不同的长句句式,进而在某些合适的位置分割。这些方法普遍存在的问题是手工制定的规则对语言现象的覆盖程度不理想。近年来学者们转向使用机器学习的方法来分割句子,然而这类方法大多使用句中已有的逗号,或 者一些特定的连词作为候选的分割点。如果原句子含有的逗号数目很少,那么这类方法的效果就会大打折扣。此外,在英-中翻译方向上,即针对英-中翻译的英文长句处理方法,研究工作做得并不是很充分。
综上所述,目前句子分割对于机器翻译,仍然是亟待解决的问题之一,也是研究的热点之一。
发明内容
本发明的目的是为了解决现有基于规则的句子分割方法对语言现象的覆盖程度太小,而现有基于机器学习的方法只能利用句中已有逗号来进行分割的问题,提出了一种新颖的面向机器翻译的多策略英文长句分割方法。
本发明技术方案的思想是综合利用规则方法和机器学习方法,在英文长句中的合适位置添加逗号,以此来进行英文长句的分割。基于规则的方法能够准确地识别出某些简单的语言现象,寻找合适的添加逗号的位置;而机器学习的方法尝试更深层次地挖掘句子中的潜在逗号位置,补充规则方法的不足,提升句子分割的效果。
本发明的目的是通过以下技术方案实现的:
一种面向机器翻译的多策略英文长句分割方法,包括训练步骤和实际分割步骤,训练步骤是基于机器学习方法必不可少的步骤。具体步骤如下:
步骤一、准备训练语料并进行预处理:本发明需要准备逗号较丰富的较大量英文句子作为训练语料。对训练语料进行预处理,主要包括英文断词(Tokenization)、去掉其中的乱码和特殊符号,得到训练预料CT。
步骤二、对训练语料进行特征提取:分别对CT中的每一个句子进行特征提取,包括进行依存句法分析、进行词性标注。这部分工作可以手工进行,也可以使用现有工具。本发明使用了斯坦福大学开发的句法分析器和词性标注工具。
步骤三、对每一个句子进行逗号标注:需要将句中的逗号位置标 识出来,具体做法是将逗号之前的那个词标注为COM,其余的词标注为NUL。之后再把标注信息与步骤二得到的特征组合成CRF所要求的数据格式。
步骤四、CRF模型训练:创建合适的特征模版,使用特征模版与步骤二得到的语料特征,训练CRF模型M,将M保存在外存中。CRF模型包含了训练语料中逗号位置的信息。
实际分割步骤是本发明的实际使用步骤。具体步骤如下:
步骤一、预处理:对于待处理英文长句,首先进行预处理,包括英文断词(Tokenization)、去掉乱码和特殊符号,得到规范化的英文长句S。
步骤二、特征提取:对规范化之后的句子S进行特征提取,这部分与训练步骤中的特征提取相同,包括依存句法分析、词性标注。本发明使用斯坦福大学开发的句法分析器和词性标注器进行特征提取。
步骤三、使用规则方法的分割:使用事先所制定的规则来识别某些简单的语言现象,如果句中存在这样的现象,则提取之以得到逗号插入位置集合P1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510441708.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:企口机翘板手动锁止装置
- 下一篇:一种履带起重机的回转控制系统





