[发明专利]一种融合句法结构的藏汉语言神经机器翻译方法有效

申请号：	202011500300.8	申请日：	2020-12-18
公开（公告）号：	CN112613326B	公开（公告）日：	2022-11-08
发明（设计）人：	史树敏;罗丹;武星;苏超;黄河燕	申请（专利权）人：	北京理工大学
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/211;G06N3/04
代理公司：	北京正阳理工知识产权代理事务所(普通合伙) 11639	代理人：	张利萍
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合句法结构汉语言神经机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合句法结构的藏汉语言神经机器翻译方法，其特征在于，包括以下步骤：

首先，定义相关概念：

定义1：编码器

在神经机器翻译的编码器-解码器架构中，编码器将源语言句子转换成向量；

定义2：解码器

在神经机器翻译的编码器-解码器架构中，将编码器的向量输出作为输入，并转换成对应文本；

定义3：位置编码

Transformer模型在处理句子时，将所有单词并行处理，位置编码为模型提供每个词的位置信息；

位置编码方式包括两种，一种是定义嵌入子层，让整个网络学习到序列的位置编码信息，另一种是对每一个位置的单词，通过固定的函数得到单词的位置编码信息；在transformer中，采用绝对位置编码，具体过程如下：

式中，2i、2i+1代表维度，pos代表位置，d_model代表词向量维度；如上式所示，分词后的平行语料，每一个词或者短语称为一个token；绝对位置编码就是给每个token添加一个索引；绝对位置编码对每个token的位置索引pos进行一个sin/cos函数变换，为其制定一个唯一位置编码，该位置编码与每个token的词嵌入求和之后作为transformer的输入，使得模型更容易的捕获相对位置；对于相对位置k，PE_pos+k为PE_pos的线性变换；

定义4：bleu值

作为机器翻译领域通用的翻译质量评价指标，bleu值越大代表翻译效果越好，bleu值基于n-gram匹配机制进行计算；

定义5：藏语依存树

包含藏语不同词或短语之间的依存关系的树结构的语料，包括词、词性、依存弧和依存关系类型；

定义6：藏语短语树

包含每个短语的类型、词性和在句中的成分类型；

定义7：藏汉平行语料

指藏语-汉语对照的双语文档，对于汉语语料中的每一个汉语语句，在藏语语料中都有语义相同的一个语句与之对应；

定义8：注意力机制

注意力是编码器和解码器之间的接口；在transformer中，采用多头自注意力机制，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (3)

head_i＝Attention(QW_i^Q,KW_i^K,VW_i^V) (4)式中，h表示将参数W分成的并行网络个数，多头自注意力机制通过h个不同的线性变换对Q、K、V向量进行投影，然后将不同的attention结果拼接起来；W^Q，W^K,W^V均为模型通过学习更新而来的权重矩阵，是注意力网络的输入映射，W^o是输出的线性映射参数；i＝1,…,h；；

定义9：PPL

模型困惑度，是用在自然语言处理领域中，衡量语言模型好坏的指标，其根据每个词来估计一句话出现的概率，并用句子长度作标准；一个词语序列的困惑度公式如下：

其中，k表示句子长度，P(W_i)表示第i个词的概率，P(W_i|W_1...i-1)表示基于前i-1个词得出第i个词的概率；拥有最低困惑度的模型接近于产生数据的真实模型；

定义10：词嵌入

表示用于编码器的词输入；作为一种分布式的表征，其中每个词都被映射成一个连续值构成的固定大小的向量；

定义11：分词

是自然语言处理任务的一项十分重要的预处理过程；

定义12：前馈神经网络

transformer的数据经过一个前馈神经网络，该前馈神经网络采用两个线性变换，激活函数为Relu；

定义13：残差连接和层正则化

transformer在训练过程中，使用参数正则化手段，公式如下：

Z′＝LayerNorm(X+Z) (6)

其中，X、Z表示输入到编码器的词向量，Z′表示自注意力的输出向量；

步骤1：利用藏语依存树语料，训练依存分析模型，具体如下：

步骤1.1：使用藏语短语树作为原始语料，该语料来源于人工标注；设计基于规则的方法，进行短语树到依存树的转换；

然后，自底向上遍历短语树；在遍历过程中，为每个节点生成对应依存关系，直至遍历到短语树根结点；

步骤1.2：使用藏语依存树语料，通过MSTParse训练获得藏语依存分析器；该分析器用来对平行语料进行依存树构建；

步骤2：利用依存分析模型，生成藏语平行语料的依存树；

其中，使用的原始平行语料为定义6中的藏语短语树，获得的藏语依存树语料为定义5中的藏语依存树；

步骤2.1：对藏语短语树中的每一句藏语语句，使用步骤1中训练获得的模型以及藏语短语树，进行词性、依存弧以及依存关系生成，从而获得对应的依存树；

其中，对于语句的第i个词，计为W_i，下标i的取值为[1,n],n为句长；

其中，获得的依存树的成分有词s，词在句子里的序号num，词在依存树中的序号dos，依存关系d；

步骤2.2：使用获得的依存树语料，将序号dos作为后续使用相对位置编码的序号；

步骤3：使用基于句法的相对位置编码，优化transformer中的绝对位置编码，融入到注意力权重的计算；

给定一个输入序列x＝[x₁,x₂,...x_k]，其中，k属于[1,sentence_X]，sentence_X为序列x的长度；

其中，相对位置编码公式如下：

PE(abs)＝f(abs/10000^2i/d) (7)

abs(x_i)＝f_abs(PE(abs_se),PE(abs_rel)) (8)

相对位置编码，是将依存树中相对位置编码abs_rel与句子绝对位置编码进行线性拼接；f_abs为一个非线性函数，其中，绝对位置编码abs_se的计算方法如定义3所述，依存树的相对位置编码abs_rel，定义如下：

abs_rel(x_i)＝tree(x_i,ROOT) (9)

其中，abs_rel为依存树中每个token与中心节点间的距离表示；

步骤4：对平行语料进行预处理；平行语料来源于ccmt翻译比赛提供的藏汉平行语料；

步骤5：对平行语料进行分词；

步骤6：对于分词后的语料，获得词向量，与相对位置编码获得的向量进行拼接；

创建输入的词嵌入，如下列公式所示：

W＝f_input(w_e+r_e) (10)

其中，W_e是分词后的词嵌入，为一个q维的向量；f_input是一个非线性函数；r_e是步骤3.1中获取的相对位置编码的向量，将该向量进行拼接作为模型训练的输入；

步骤7：将步骤6中获得的词向量W作为输入，输送到transformer中，完成藏语-汉语神经机器翻译模型的训练；

对获得的翻译模型进行测试，并对翻译译文进行评价。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011500300.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种转子自动高效贴磁钢片装置
下一篇：一种防粉尘的建筑施工用墙壁打磨装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合句法结构的藏汉语言神经机器翻译方法有效

专利文献下载