[发明专利]利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法在审
| 申请号: | 201910807617.7 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110598221A | 公开(公告)日: | 2019-12-20 |
| 发明(设计)人: | 苏依拉;孙晓骞;王宇飞;赵亚平;张振;高芬;贺玉玺;王昊 | 申请(专利权)人: | 内蒙古工业大学 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
| 地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成器 鉴别器 机器翻译系统 平行数据 汉语 语料 译文 句子 平行 目标语言句子 解码器 混合编码器 源语言句子 注意力机制 对抗训练 翻译结果 人类翻译 网络包括 网络构造 向量表示 翻译 对抗 充分性 蒙古语 自然性 稀疏 语句 转化 保证 | ||
一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,生成对抗网络包括生成器和鉴别器,生成器使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,在鉴别器中,判断生成器生成的汉语句子与人类译文的差距,将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,得到高质量的蒙汉机器翻译系统和大量的蒙汉平行数据集,利用该蒙汉机器翻译系统进行蒙汉翻译。本发明解决了针对蒙汉平行数据集严重匮乏以及NMT不能保证翻译结果的自然性、充分性和准确性等问题。
技术领域
本发明属于机器翻译技术领域,特别涉及一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法。
背景技术
机器翻译能够利用计算机将一种语言自动翻译成为另外一种语言,是解决语言障碍问题的最有力手段之一。近年来,许多大型搜索企业和服务中心例如谷歌、百度等针对机器翻译都进行了大规模的研究,为获取机器翻译的高质量译文做出了重要贡献,因此大语种之间的翻译已经接近人类翻译水平,数百万人使用在线翻译系统和移动应用实现了跨越语言障碍的交流。在近几年深度学习的浪潮中,机器翻译已成为重中之重,已经成为促进全球交流的重要组成部分。
基于Seq2Seq的神经机器翻译框架由编码器和解码器组成,编码器读取输入序列并输出单个矢量,解码器读取该矢量以产生输出序列。自2013年以来,该框架获得了迅速的发展,相对于统计机器翻译而言在翻译质量上获得了显著的提升。句子级最大似然估计原理、LSTM和GRU中的门控单元以及注意力机制的加入使得NMT翻译长句子的能力得到了提高。2017年AshishVaswani等人提出了Transformer架构,一种完全依赖于注意机制来绘制输入和输出之间全局依赖关系的架构。这样做的好处是实现了并行化计算、有效减少了模型的训练时间、在一定程度上提高了机器翻译模型的质量。避免了RNN及其衍生网络慢且无法实现并行化等缺点。
目前,神经机器翻译已经很成功了,但是最好的NMT系统和人们的期望任有较大的差距,翻译质量有待提高。因为NMT通常采用最大似然估计训练模型,即最大化以源句为条件的目标真实句子的概率,即:模型可以为当前生成最佳的候选词,但是从长远来看对整个句子的翻译并不是最佳翻译,这给NMT留下了一个隐患。就连强大的Transformer也不例外。与人类的真实翻译相比,这样的目标并不能保证翻译结果的自然性、充分性和准确性。
另外,大语种之间的互译已经相对比较成熟,但小语种之间的机器翻译由于各种挑战尤其是语料库的严重缺乏,人工构建平行语料代价十分昂贵,因此翻译效果仍不尽人意。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,该方法主要针对蒙汉平行数据集严重匮乏以及NMT不能保证翻译结果的自然性、充分性和准确性等的问题,将生成对抗网络应用在蒙汉神经机器翻译中。
为了实现上述目的,本发明采用的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910807617.7/2.html,转载请声明来源钻瓜专利网。





