[发明专利]一种融合句法结构的藏汉语言神经机器翻译方法有效
申请号: | 202011500300.8 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112613326B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 史树敏;罗丹;武星;苏超;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 句法 结构 汉语言 神经 机器翻译 方法 | ||
1.一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,包括以下步骤:
首先,定义相关概念:
定义1:编码器
在神经机器翻译的编码器-解码器架构中,编码器将源语言句子转换成向量;
定义2:解码器
在神经机器翻译的编码器-解码器架构中,将编码器的向量输出作为输入,并转换成对应文本;
定义3:位置编码
Transformer模型在处理句子时,将所有单词并行处理,位置编码为模型提供每个词的位置信息;
位置编码方式包括两种,一种是定义嵌入子层,让整个网络学习到序列的位置编码信息,另一种是对每一个位置的单词,通过固定的函数得到单词的位置编码信息;在transformer中,采用绝对位置编码,具体过程如下:
式中,2i、2i+1代表维度,pos代表位置,dmodel代表词向量维度;如上式所示,分词后的平行语料,每一个词或者短语称为一个token;绝对位置编码就是给每个token添加一个索引;绝对位置编码对每个token的位置索引pos进行一个sin/cos函数变换,为其制定一个唯一位置编码,该位置编码与每个token的词嵌入求和之后作为transformer的输入,使得模型更容易的捕获相对位置;对于相对位置k,PEpos+k为PEpos的线性变换;
定义4:bleu值
作为机器翻译领域通用的翻译质量评价指标,bleu值越大代表翻译效果越好,bleu值基于n-gram匹配机制进行计算;
定义5:藏语依存树
包含藏语不同词或短语之间的依存关系的树结构的语料,包括词、词性、依存弧和依存关系类型;
定义6:藏语短语树
包含每个短语的类型、词性和在句中的成分类型;
定义7:藏汉平行语料
指藏语-汉语对照的双语文档,对于汉语语料中的每一个汉语语句,在藏语语料中都有语义相同的一个语句与之对应;
定义8:注意力机制
注意力是编码器和解码器之间的接口;在transformer中,采用多头自注意力机制,公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (3)
headi=Attention(QWiQ,KWiK,VWiV) (4)式中,h表示将参数W分成的并行网络个数,多头自注意力机制通过h个不同的线性变换对Q、K、V向量进行投影,然后将不同的attention结果拼接起来;WQ,WK,WV均为模型通过学习更新而来的权重矩阵,是注意力网络的输入映射,Wo是输出的线性映射参数;i=1,…,h;;
定义9:PPL
模型困惑度,是用在自然语言处理领域中,衡量语言模型好坏的指标,其根据每个词来估计一句话出现的概率,并用句子长度作标准;一个词语序列的困惑度公式如下:
其中,k表示句子长度,P(Wi)表示第i个词的概率,P(Wi|W1...i-1)表示基于前i-1个词得出第i个词的概率;拥有最低困惑度的模型接近于产生数据的真实模型;
定义10:词嵌入
表示用于编码器的词输入;作为一种分布式的表征,其中每个词都被映射成一个连续值构成的固定大小的向量;
定义11:分词
是自然语言处理任务的一项十分重要的预处理过程;
定义12:前馈神经网络
transformer的数据经过一个前馈神经网络,该前馈神经网络采用两个线性变换,激活函数为Relu;
定义13:残差连接和层正则化
transformer在训练过程中,使用参数正则化手段,公式如下:
Z′=LayerNorm(X+Z) (6)
其中,X、Z表示输入到编码器的词向量,Z′表示自注意力的输出向量;
步骤1:利用藏语依存树语料,训练依存分析模型,具体如下:
步骤1.1:使用藏语短语树作为原始语料,该语料来源于人工标注;设计基于规则的方法,进行短语树到依存树的转换;
然后,自底向上遍历短语树;在遍历过程中,为每个节点生成对应依存关系,直至遍历到短语树根结点;
步骤1.2:使用藏语依存树语料,通过MSTParse训练获得藏语依存分析器;该分析器用来对平行语料进行依存树构建;
步骤2:利用依存分析模型,生成藏语平行语料的依存树;
其中,使用的原始平行语料为定义6中的藏语短语树,获得的藏语依存树语料为定义5中的藏语依存树;
步骤2.1:对藏语短语树中的每一句藏语语句,使用步骤1中训练获得的模型以及藏语短语树,进行词性、依存弧以及依存关系生成,从而获得对应的依存树;
其中,对于语句的第i个词,计为Wi,下标i的取值为[1,n],n为句长;
其中,获得的依存树的成分有词s,词在句子里的序号num,词在依存树中的序号dos,依存关系d;
步骤2.2:使用获得的依存树语料,将序号dos作为后续使用相对位置编码的序号;
步骤3:使用基于句法的相对位置编码,优化transformer中的绝对位置编码,融入到注意力权重的计算;
给定一个输入序列x=[x1,x2,...xk],其中,k属于[1,sentenceX],sentenceX为序列x的长度;
其中,相对位置编码公式如下:
PE(abs)=f(abs/100002i/d) (7)
abs(xi)=fabs(PE(absse),PE(absrel)) (8)
相对位置编码,是将依存树中相对位置编码absrel与句子绝对位置编码进行线性拼接;fabs为一个非线性函数,其中,绝对位置编码absse的计算方法如定义3所述,依存树的相对位置编码absrel,定义如下:
absrel(xi)=tree(xi,ROOT) (9)
其中,absrel为依存树中每个token与中心节点间的距离表示;
步骤4:对平行语料进行预处理;平行语料来源于ccmt翻译比赛提供的藏汉平行语料;
步骤5:对平行语料进行分词;
步骤6:对于分词后的语料,获得词向量,与相对位置编码获得的向量进行拼接;
创建输入的词嵌入,如下列公式所示:
W=finput(we+re) (10)
其中,We是分词后的词嵌入,为一个q维的向量;finput是一个非线性函数;re是步骤3.1中获取的相对位置编码的向量,将该向量进行拼接作为模型训练的输入;
步骤7:将步骤6中获得的词向量W作为输入,输送到transformer中,完成藏语-汉语神经机器翻译模型的训练;
对获得的翻译模型进行测试,并对翻译译文进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011500300.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种转子自动高效贴磁钢片装置
- 下一篇:一种防粉尘的建筑施工用墙壁打磨装置