[发明专利]基于深度可分离卷积的汉越神经机器翻译方法在审

专利信息
申请号: 201911391334.5 申请日: 2019-12-30
公开(公告)号: CN111144142A 公开(公告)日: 2020-05-12
发明(设计)人: 余正涛;徐毓;赖华;高盛祥;文永华;于志强;朱俊国 申请(专利权)人: 昆明理工大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/289;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 可分离 卷积 神经 机器翻译 方法
【说明书】:

发明涉及一种基于深度可分离卷积的汉越神经机器翻译方法,属于资源稀缺型语言神经机器翻译技术领域。本发明首先根据越南语的语言特点,将越南语切分为词、音节、字符、子词四种不同的翻译粒度序列。其次利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,本发明通过在神经机器翻译模型编码器嵌入层之前增加深度可分离卷积神经网络的方法,在资源稀缺型语言机器翻译领域构建了基于深度可分离卷积的汉越神经机器翻译方法,有效的缓解了资源稀缺型语言神经机器翻译数据稀疏的问题,提升了翻译性能。

技术领域

本发明涉及基于深度可分离卷积的汉越神经机器翻译方法,属于资源稀缺型语言神经机器翻译技术领域。

背景技术

近年来,神经机器翻译(Neural Machine Translation,NMT)成为机器翻译研究的重要方向。随着中越关系发展日渐频繁,汉越神经机器翻译对于中越交流有着重要的意义和价值。越南语属于资源稀缺型语言,其特征是双语对齐语料贫乏,语料收集困难,使得数据稀疏问题十分严重,极大的影响了模型的翻译效果。

在神经机器翻译中,为了缓解数据稀疏的问题,一般采用更小的输入/输出粒度来解决稀有和未知单词问题,Costa-jussa等人以字符表示为底层,采用卷积层和高速层神经网络形成词语表示,其实验将所提出的模型布置在源语言,以帮助编码器更完整地捕获源语言句子语义信息,而目标语言仍以单词进行概率估计和生成;Chung等人提出一种基于字母的编码器,在目标语言端缓解了受限词汇量问题;Ling等人进一步在双语两端采用字符表示方法。其以字符表示为底层,采用双向LSTM神经网络形成词语表示。在汉越神经机器翻译模型中,可以对越南语这种拼音文字进行切分,使用切分后的语料进行模型训练,来降低翻译中的数据稀疏问题,切分后的序列中包含了许多局部特征信息,这些信息对于神经机器翻译而言是十分有用的。因此本文利用深度可分离卷积改进神经机器翻译模型,提取局部特征向量,优先学习序列的局部信息,相比传统卷积,深度可分离卷积是一种执行卷积更高效的方法,需要的参数更少,计算量也更小,往往可以使用更少的数据学到更好的表示,从而得到性能更好的模型。

发明内容

本发明提供了基于深度可分离卷积的汉越神经机器翻译方法,以用于解决资源稀缺型语言神经机器翻译中的数据稀疏的问题,该方法显著提高了汉越神经机器翻译的性能。

本发明的技术方案是:基于深度可分离卷积的汉越神经机器翻译方法,所述方法的具体步骤如下:

Step1、根据越南语的语言特点,将越南语切分为四种不同的翻译粒度序列,切分好的四种粒度分别为词粒度、音节粒度、字符粒度、子词粒度;中文则只进行分词处理;

Step2、利用深度可分离卷积改进神经机器翻译模型:通过增加深度可分离卷积神经网络来对神经机器翻译模型输入的不同粒度序列进行卷积运算,优先学习序列的局部信息,提取更多的特征数据;

Step3、将处理好的汉越双语语料不同粒度序列分别输入到构建好的基于深度可分离卷积的汉越神经机器翻译模型中进行训练并生成最终翻译。

作为本发明的优选方案,所述步骤Step1具体包括:

在神经机器翻译任务中,对语料进行切分是预处理过程中非常重要的一个步骤。语料中一个句子所包含的特征是由多个局部特征共同组成。而在语料预处理阶段,句子切分的粒度越大,切分结果越能够保存更加完整的局部特征,但是这样加重了数据稀疏的问题;句子切分的粒度越小,包含局部特征越少,但是数据稀疏的问题会得到一定程度的缓解。尤其在双语资源相对匮乏的汉越机器翻译任务中,切分粒度的把控就显得十分重要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911391334.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top