[发明专利]一种融合句法结构的藏汉语言神经机器翻译方法有效

专利信息
申请号: 202011500300.8 申请日: 2020-12-18
公开(公告)号: CN112613326B 公开(公告)日: 2022-11-08
发明(设计)人: 史树敏;罗丹;武星;苏超;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06N3/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 句法 结构 汉语言 神经 机器翻译 方法
【权利要求书】:

1.一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,包括以下步骤:

首先,定义相关概念:

定义1:编码器

在神经机器翻译的编码器-解码器架构中,编码器将源语言句子转换成向量;

定义2:解码器

在神经机器翻译的编码器-解码器架构中,将编码器的向量输出作为输入,并转换成对应文本;

定义3:位置编码

Transformer模型在处理句子时,将所有单词并行处理,位置编码为模型提供每个词的位置信息;

位置编码方式包括两种,一种是定义嵌入子层,让整个网络学习到序列的位置编码信息,另一种是对每一个位置的单词,通过固定的函数得到单词的位置编码信息;在transformer中,采用绝对位置编码,具体过程如下:

式中,2i、2i+1代表维度,pos代表位置,dmodel代表词向量维度;如上式所示,分词后的平行语料,每一个词或者短语称为一个token;绝对位置编码就是给每个token添加一个索引;绝对位置编码对每个token的位置索引pos进行一个sin/cos函数变换,为其制定一个唯一位置编码,该位置编码与每个token的词嵌入求和之后作为transformer的输入,使得模型更容易的捕获相对位置;对于相对位置k,PEpos+k为PEpos的线性变换;

定义4:bleu值

作为机器翻译领域通用的翻译质量评价指标,bleu值越大代表翻译效果越好,bleu值基于n-gram匹配机制进行计算;

定义5:藏语依存树

包含藏语不同词或短语之间的依存关系的树结构的语料,包括词、词性、依存弧和依存关系类型;

定义6:藏语短语树

包含每个短语的类型、词性和在句中的成分类型;

定义7:藏汉平行语料

指藏语-汉语对照的双语文档,对于汉语语料中的每一个汉语语句,在藏语语料中都有语义相同的一个语句与之对应;

定义8:注意力机制

注意力是编码器和解码器之间的接口;在transformer中,采用多头自注意力机制,公式如下:

MultiHead(Q,K,V)=Concat(head1,...,headh)WO (3)

headi=Attention(QWiQ,KWiK,VWiV) (4)式中,h表示将参数W分成的并行网络个数,多头自注意力机制通过h个不同的线性变换对Q、K、V向量进行投影,然后将不同的attention结果拼接起来;WQ,WK,WV均为模型通过学习更新而来的权重矩阵,是注意力网络的输入映射,Wo是输出的线性映射参数;i=1,…,h;;

定义9:PPL

模型困惑度,是用在自然语言处理领域中,衡量语言模型好坏的指标,其根据每个词来估计一句话出现的概率,并用句子长度作标准;一个词语序列的困惑度公式如下:

其中,k表示句子长度,P(Wi)表示第i个词的概率,P(Wi|W1...i-1)表示基于前i-1个词得出第i个词的概率;拥有最低困惑度的模型接近于产生数据的真实模型;

定义10:词嵌入

表示用于编码器的词输入;作为一种分布式的表征,其中每个词都被映射成一个连续值构成的固定大小的向量;

定义11:分词

是自然语言处理任务的一项十分重要的预处理过程;

定义12:前馈神经网络

transformer的数据经过一个前馈神经网络,该前馈神经网络采用两个线性变换,激活函数为Relu;

定义13:残差连接和层正则化

transformer在训练过程中,使用参数正则化手段,公式如下:

Z′=LayerNorm(X+Z) (6)

其中,X、Z表示输入到编码器的词向量,Z′表示自注意力的输出向量;

步骤1:利用藏语依存树语料,训练依存分析模型,具体如下:

步骤1.1:使用藏语短语树作为原始语料,该语料来源于人工标注;设计基于规则的方法,进行短语树到依存树的转换;

然后,自底向上遍历短语树;在遍历过程中,为每个节点生成对应依存关系,直至遍历到短语树根结点;

步骤1.2:使用藏语依存树语料,通过MSTParse训练获得藏语依存分析器;该分析器用来对平行语料进行依存树构建;

步骤2:利用依存分析模型,生成藏语平行语料的依存树;

其中,使用的原始平行语料为定义6中的藏语短语树,获得的藏语依存树语料为定义5中的藏语依存树;

步骤2.1:对藏语短语树中的每一句藏语语句,使用步骤1中训练获得的模型以及藏语短语树,进行词性、依存弧以及依存关系生成,从而获得对应的依存树;

其中,对于语句的第i个词,计为Wi,下标i的取值为[1,n],n为句长;

其中,获得的依存树的成分有词s,词在句子里的序号num,词在依存树中的序号dos,依存关系d;

步骤2.2:使用获得的依存树语料,将序号dos作为后续使用相对位置编码的序号;

步骤3:使用基于句法的相对位置编码,优化transformer中的绝对位置编码,融入到注意力权重的计算;

给定一个输入序列x=[x1,x2,...xk],其中,k属于[1,sentenceX],sentenceX为序列x的长度;

其中,相对位置编码公式如下:

PE(abs)=f(abs/100002i/d) (7)

abs(xi)=fabs(PE(absse),PE(absrel)) (8)

相对位置编码,是将依存树中相对位置编码absrel与句子绝对位置编码进行线性拼接;fabs为一个非线性函数,其中,绝对位置编码absse的计算方法如定义3所述,依存树的相对位置编码absrel,定义如下:

absrel(xi)=tree(xi,ROOT) (9)

其中,absrel为依存树中每个token与中心节点间的距离表示;

步骤4:对平行语料进行预处理;平行语料来源于ccmt翻译比赛提供的藏汉平行语料;

步骤5:对平行语料进行分词;

步骤6:对于分词后的语料,获得词向量,与相对位置编码获得的向量进行拼接;

创建输入的词嵌入,如下列公式所示:

W=finput(we+re) (10)

其中,We是分词后的词嵌入,为一个q维的向量;finput是一个非线性函数;re是步骤3.1中获取的相对位置编码的向量,将该向量进行拼接作为模型训练的输入;

步骤7:将步骤6中获得的词向量W作为输入,输送到transformer中,完成藏语-汉语神经机器翻译模型的训练;

对获得的翻译模型进行测试,并对翻译译文进行评价。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011500300.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top