[发明专利]一种融合句法结构的藏汉语言神经机器翻译方法有效
申请号: | 202011500300.8 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112613326B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 史树敏;罗丹;武星;苏超;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 句法 结构 汉语言 神经 机器翻译 方法 | ||
本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
技术领域
本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,尤其涉及一种基于依存句法结构的相对位置编码的自注意力藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。
背景技术
近年来,神经机器翻译在多个翻译任务上均取得最佳表现,在大规模语料上训练获得的翻译模型,可以与人工翻译相媲美。神经机器翻译与传统的统计机器翻译不同,它不再使用基于规则的方法,而是采用深度学习的方法。具体而言,在基于端到端的“编码器-解码器”框架计算双语语料中,分词后每个组块间的对应关系。这种学习方式依赖于海量可用的双语平行语料。换言之,神经机器翻译依赖于丰富的语言资源,从而得到最优的翻译模型。
句法知识对语言处理领域的各个研究方向均有很大意义。例如,分词、文本的情感分析等。为了提高自然语言信息处理任务结果的准确性,适应现代网络的发展,对句法知识的研究与分析刻不容缓。并且,句法知识对提升神经机器翻译,尤其是低资源神经机器翻译的翻译质量有重大意义。低资源机器翻译由于可用的语料规模小,且整理语料困难,耗费大量人力标注,其翻译表现往往不佳。句法知识的引入可以丰富语义知识,帮助神经网络更好的学习两种语言间的联系,从在句法知识的层面对神经机器翻译进行优化。
现有的神经机器翻译方法面临很多问题和挑战。例如,目前最热门的神经机器翻译模型transformer,不再使用神经网络作为编码器-解码器,而是采用多头自注意力机制,其在多个翻译任务上均取得了最优的表现。该模型基于多头自注意力机制,在获取输入序列的词嵌入时,采用绝对位置编码。但是,该方法在计算注意力权重时,仅关注每个token在当前组的绝对位置信息,不同的词可能有相同的位置编码,这一情况可能会造成上下文信息的丢失。其次,训练一个翻译模型用到的两种语言对间存在语法差异。例如汉语-日语语言对,汉语是主谓宾结构,而日语是主宾谓的结构,在训练过程中,会增加模型的训练时间,延长模型收敛的时间。传统的循环神经网络模型在预测下一时间步的目标词语时,不能利用语言本身的词性和句法信息。
上述已有的基于注意力的神经机器翻译方法,虽然在大多数翻译任务中取得了最佳表现,但在针对藏语-汉语等低资源任务上取得的效果不佳。
发明内容
本发明的目的是针对现有技术存在的问题和不足,在面对藏语-汉语神经机器翻译时,由于语言本身句法结构差异导致训练困难等问题,提出一种新的融合句法结构的藏汉语言神经机器翻译方法。
本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语-汉语神经机器翻译质量的目的。
本发明的创新点在于:利用相对位置编码优化基于自注意力机制的低资源藏汉神经机器翻译性能。根据藏语汉语的句法结构特点,以及tranformer的绝对位置编码的不足,首先,在原始词嵌入中加入依存树的位置信息,并设计一个结构编码方法融入到自注意力机制中。然后,使用优化过的注意力机制学习融入相对句法结构的词向量,对包含语义结构的输入进行建模,通过参数训练,获得最终翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011500300.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种转子自动高效贴磁钢片装置
- 下一篇:一种防粉尘的建筑施工用墙壁打磨装置