[发明专利]基于双向依存自注意力机制的低资源神经机器翻译方法在审
申请号: | 202111078629.4 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901845A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 赖华;李治瑾;文永华;高盛祥;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/49;G06F40/289;G06F40/205 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 依存 注意力 机制 资源 神经 机器翻译 方法 | ||
本发明涉及基于双向依存自注意力机制的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明首先从互联网上获取平行语料,并对获取的数据进行清洗,之后对源语言进行分词及依存解析,再将处理好的平行数据和依存标记数据作为输入,输入到具有双向依存自注意力机制的Transformer模型中,最终得到翻译结果。本发明提出的基于双向依存自注意力机制的低资源神经机器翻译方法,在汉语‑泰语、汉语‑英语和英语‑德语上的双向翻译上取得了很好的效果。
技术领域
本发明涉及基于双向依存自注意力机制的低资源神经机器翻译方法,属于自然语言处理技术领域。
背景技术
近年来神经机器翻译方法取得了重要的进展,在主要语种间的翻译质量已经接近人工翻译水平。神经机器翻译主要依赖大规模的语料,在低资源情况下,神经机 器翻译模型的翻译质量会出现明显下降。为解决资源稀缺的问题,神经机器翻译一 般采用融合句法信息的方法。目前的研究主要基于RNNs和LSTM模型框架,但 Transformer模型已经成为了基线模型,因此本发明的研究基于Transformer模型。而 在依存句法融合方面一般只融合依存句法中的父词信息,利用子词到父词的方向能 够确定句子中父词的位置信息,得到父词位置向量,增强句子中父词对机器翻译的 影响。而父词到子词的方向较少被融合到机器翻译模型中,但本发明认为父词到子 词方向能够提供句子中子词的位置信息,通过遍历得到句子中的子词位置信息,构 建子词权重矩阵,增强子词对机器翻译的影响。这种明确的父词到子词和子词到父 词的双向关联关系对机器翻译可能是更加有效的。由此本发明提出了将这两种双向 信息融合到翻译模型中的方法,通过更全面的结构信息融合提升机器翻译的性能。
发明内容
本发明提供了基于双向依存自注意力机制的低资源神经机器翻译方法,以用于解决低资源神经机器翻译方法翻译性能低的问题。
本发明的技术方案是:基于双向依存自注意力机制的低资源神经机器翻译方法,所述基于双向依存自注意力机制的低资源神经机器翻译方法的具体步骤如下:
Step1、从互联网中爬取的互译的平行语料,通过人工筛选并对齐得到平行句对。
Step2、对处理好的平行语料进行分词、依存解析和BPE,其中对双语数据进行 分词和BPE,但只对源语言端进行依存解析,解析后得到源语言的依存标记。
Step3、在Step2的基础上,将双向依存信息融合到Transformer模型中,得到具 有双向依存自注意力机制的Transformer模型,再对处理好的平行语料进行训练,得 到训练好的具有双向依存自注意力机制的Transformer模型。
Step4、在Step3的基础上,利用训练好的具有双向依存自注意力机制的Transformer模型在测试集上进行翻译,得到翻译结果后利用BLUE值作为评价指标 对翻译质量进行评估。
作为本发明的进一步方案,所述Step1中通过互联网爬取互译的汉泰平行语料,人工筛选出106万个平行句对,并为所有的翻译任务中构建1.6万的BPE词典。
作为本发明的进一步方案,所述Step2中对处理好的平行语料进行分词和依存解析,解析后得到源语言句子中子词到父词位置信息,构建父词位置向量,再利用父 词位置信息即可得到父词到子词方向遍历的全部子词依存信息且无需利用外部依存 解析工具,从而构建子词权重矩阵,得到双向依存信息。
作为本发明的进一步方案,所述Step3将子词到父词方向和父词到子词方向的双向依存信息融合到Transformer多头注意力机制中,对多头注意力机制进行更改,通 过融合父词位置向量和子词权重矩阵,构建双向依存自注意力机制。利用双向依存 信息为模型提供更全面的结构信息,提升低资源神经机器翻译的翻译效果。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078629.4/2.html,转载请声明来源钻瓜专利网。