[发明专利]机器翻译质量评估方法、装置、设备及介质在审

专利信息
申请号: 202011066983.0 申请日: 2020-10-04
公开(公告)号: CN112347795A 公开(公告)日: 2021-02-09
发明(设计)人: 徐金安;黄辉;陈钰枫;刘健 申请(专利权)人: 北京交通大学
主分类号: G06F40/51 分类号: G06F40/51;G06F40/58;G06K9/62;G06N3/08
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 邢少真
地址: 100044 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器翻译 质量 评估 方法 装置 设备 介质
【说明书】:

本申请公开了一种机器翻译质量评估方法、装置、设备及介质,涉及机器学习网络。上述方法应用于机器翻译自动评估系统中,所述机器翻译自动评估系统运行有特征提取网络和分类预测网络,所述方法包括:获取源语句和机器译文,所述机器译文是待评估的机器翻译系统对所述源语句翻译生成的;调用所述特征提取网络对所述源语句和机器译文生成分布式特征表示,所述特征提取网络是基于双语平行语料库采用无监督方式训练的语言编码模型;调用所述分类预测网络对所述分布式特征表示进行分类预测,得到所述机器译文的质量评估结果,所述质量评估结果包含词汇级别和句子级别中的至少一种。

技术领域

本申请实施例涉及机器学习领域,特别涉及一种机器翻译质量评估方法、装置、设备及 介质。

背景技术

随着深度学习的发展,机器翻译系统取得了重大突破并得到了广泛的应用。机器翻译系 统的性能评估通常采用基于参考译文的BLEU(bilingual evaluationunderstudy,双语互译质量 辅助工具)作为评价指标,重点考察机器译文和参考译文之间的匹配程度,但在很多情况下, 参考译文是无法或很难获得的。此外,基于参考译文的评价指标完全忽略了源语句,且很难 处理词法或句法上的同义性。

机器翻译质量评估的目的是在没有参考译文的情况下自动评估机器翻译的质量。词汇级 翻译质量评估任务的目标是为机器译文中的每个词预测质量标签(OK或BAD)来评估每个 词的质量,句子级翻译质量评估的目标是预测需要多少次后编辑操作来评估整个句子的质量。

翻译质量评估训练集的构建需要翻译专家对机器译文进行译后编辑,然后计算翻译结果 与译后编辑结果之间的差异。这里的差异指的是,将译后编辑句子和机器翻译句子使用最大 编辑距离算法进行对齐,根据两个句子对齐的结果,得到每个词的质量标签和句子级的质量 得分。由于译后编辑代价昂贵,目前的翻译质量评估数据集通常只包含1万到2万个句子对, 这使得翻译质量评估非常缺乏训练数据。

在实际的应用场景中,经常需要在无监督的场景之下进行翻译质量评估,但是相关的研 究很少。这里的无监督指的是具备人工标注的质量评估结果的翻译质量评估训练数据不可得 的情况,具体而言,就是指没有翻译专家对于译文进行译后编辑,因此无法通过最大编辑距 离算法得到机器译文的词汇级别质量标签和句子级别评估得分。。

发明内容

本申请实施例提供了一种机器翻译质量评估方法、装置、设备及介质,提供了基于无监 督训练方式的机器翻译质量评估方案,能够在缺乏训练数据的情况下,尽可能提高机器翻译 质量的评估准确性。所述技术方案如下:

根据本申请的一个方面,提供了一种机器翻译质量评估方法,应用于机器翻译自动评估 系统中,所述机器翻译自动评估系统运行有特征提取网络和分类预测网络,所述方法包括:

获取源语句和机器译文,所述机器译文是待评估的机器翻译系统对所述源语句翻译生成 的;

调用所述特征提取网络对所述源语句和机器译文生成分布式特征表示,所述特征提取网 络是基于无监督方式训练的语言编码模型得到的;

调用所述分类预测网络对所述分布式特征表示进行分类预测,得到所述机器译文的质量 评估结果,所述质量评估结果包含词汇级别和句子级别中的至少一种。

根据本申请的另一方面,提供了一种机器翻译质量评估装置,所述装置包括:

获取单元,用于获取源语句和机器译文,所述机器译文是待评估的机器翻译系统对所述 源语句翻译生成的;

特征提取网络单元,用于对所述源语句和机器译文生成分布式特征表示,所述特征提取 网络是基于无监督方式训练的语言编码模型得到的;

分类预测网络单元,用于对所述分布式特征表示进行分类预测,得到所述机器译文的质 量评估结果,所述质量评估结果包含词汇级别和句子级别中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011066983.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top