[发明专利]基于锚点的增长式实时双语词对齐的对齐方法及对齐系统在审

专利信息
申请号: 201611169586.X 申请日: 2016-12-16
公开(公告)号: CN106844332A 公开(公告)日: 2017-06-13
发明(设计)人: 张家俊;黄国平;周玉;宗成庆 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/27 分类号: G06F17/27;G06F17/28
代理公司: 北京瀚仁知识产权代理事务所(普通合伙)11482 代理人: 郭文浩,李飞
地址: 100080 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 增长 实时 双语 对齐 方法 系统
【说明书】:

技术领域

发明涉及自然语言处理技术领域,更具体地,涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐系统。

背景技术

机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片断,是翻译知识的主要来源。简而言之,词对齐就是源语言句子中某个词是由目标语言中哪个词翻译而来的。如图1所示,一个词可以被翻译为一个或多个词,甚至不被翻译。在实践中,一部分错误的翻译规则因词对齐错误而触发,因而进一步影响最终机器翻译译文质量。

在实践中,经典的词对齐方法包括IBM模型1到5和隐马尔可夫词对齐方法,可参见文献(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.1993.The mathematics of statistical machine translation:Parameter estimation.Computational Linguistics,19(2):263–311.;Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings of the 16th conference on Computational linguistics.vol.2,pp.836–841)。经典的词对齐方法在离线训练场景中的性能比较优越,已得到很多工具的支持,如广泛使用的GIZA++等。

在人工翻译场景中,专业译员不断地产生新的双语平行句对,而且要求统计机器翻译系统能实时地学习新的翻译知识,所以必然要求词对齐模型也能尽快学习到新的词语翻译知识,从而不断降低词对齐错误率。由于传统的词对齐方法用于大规模语料的离线训练周期较长,不利于统计机器翻译系统实时学习翻译知识。

然而,当前的增长式双语词对齐性能并没有达到能直接用于统计机器翻译实时学习新翻译知识的水平。其主要原因为如下三点:(1)对新词处理能力较弱;(2)长句子词对齐错误率较高;(3)大规模语料的训练周期仍然较长;(4)未充分利用置信度较高的先验知识。如果直接将先验知识作为词对齐的约束,并不能带来性能的提升,还需要改进现有增长式双语词对齐算法。因此,研究如何利用先验知识,大幅减少增长式双语词对齐的训练时间,同时明显降低新词和长句的双语词对齐的错误率,并提高最终的机器翻译译文质量是迫切需要解决的一个难题。

发明内容

为了解决现有技术中的上述问题,即为了解决降低新词和长句的双语词对齐的错误率,并提高最终的机器翻译译文质量的问题,本发明提供了一种基于锚点的增长式实时双语词对齐的对齐方法。

实现上述目的,本发明提供了如下方案:

一种基于锚点的增长式实时双语词对齐的对齐方法,所述对齐方法包括:

对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;

根据所述源语言词组和目标语言词组确定探测锚点集合;

根据所述探测锚点集合,对源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;

根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;

将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤,直至完成全部源语言句子和目标语言句子的处理。

可选的,所述确定探测锚点集合的方法包括:

步骤S21:根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;

步骤S22:将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;

步骤S23:标记所述锚点对应的源语言句子词的下标为横坐标,将横坐标所在行的所有互信息替换为最小互信息值;标记所述锚点对应的目标语言句子词的下标为纵坐标,将纵坐标对应列的所有互信息替换为最小互信息值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611169586.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top