[发明专利]一种基于人机交互机器翻译系统及其自动优化方法有效
申请号: | 202110040304.0 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112836525B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 刘均伟;梁钦;段轶;张潺;陈慷 | 申请(专利权)人: | 江苏金陵科技集团有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/194;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 邱欢欢 |
地址: | 210008*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人机交互 机器翻译 系统 及其 自动 优化 方法 | ||
本发明提出了一种基于人机交互机器翻译系统及其自动优化方法,该方法包括:借助回环翻译技术以人工校译语料完成用户应用领域平行语料库定向增强,通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料,将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料,在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明利用人机翻译系统积累的高质量平行语料在线上完成机器翻译模型的自动优化,使语料库管理与建设、机器翻译、机器辅助翻译、在线训练各个环节形成闭环,从而不断提升人机翻译平台对特定用户应用领域数据的翻译能力。
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种基于人机交互机器翻译系统及其自动优化方法。
背景技术
随着深度学习技术的飞速发展,基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台),实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑,然后译后编辑的句对作为翻译资源加入记忆库,并作为下次类似文本翻译的推荐,同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位,人机翻译平台使得机器翻译和机器辅助翻译形成优势互补,在大幅提升了翻译效率同时,也积累部分经过人工校译的高质量平行语料。如果能够在训练语料中融入一定规模的人工校译的高质量平行语料,可以有效提升模型在用户应用领域的翻译能力,但人工校译语料规模有限,单纯将该部分语料加入训练集进行模型训练发挥的作用有限。
此外,当前大部分平台提供的术语翻译功能,基本上是通过先翻译后替换实现,此方法虽然可以保证专业术语被正确翻译,但翻译过程中却丢掉了术语的上下文信息,无法保证最终翻译出的句子是最优结果。
发明内容
鉴于上述问题,本发明提供了一种基于人机交互机器翻译系统及其自动优化方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于人机交互机器翻译系统的自动优化方法,包括:采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出的结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。
作为优选方案,所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型。
作为优选方案,根据所述多个同义句与原语言端句子的相似度,挑选出同义句,包括:将原语言端句子表示为向量同义句表示为向量根据相似度计算公式计算出similarity值,所述相似度计算公式为
其中,similiarity∈(0,1)
若similiarity值0.95,则挑选出所述同义句。
作为优选方案,还包括:从所述人工校译平行语料库中随机抽取若干句对,并对所述句对进行3-5倍重复扩充后,输入至机器翻译模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金陵科技集团有限公司,未经江苏金陵科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110040304.0/2.html,转载请声明来源钻瓜专利网。