[发明专利]一种规避机器翻译译文片段重复的方法有效

申请号：	202110743012.3	申请日：	2021-07-01
公开（公告）号：	CN113191165B	公开（公告）日：	2021-09-24
发明（设计）人：	张学强;张丹;董晓飞;万怡方;曹峰	申请（专利权）人：	南京新一代人工智能研究院有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/44;G06F40/242
代理公司：	南京知识律师事务所 32207	代理人：	张苏沛
地址：	210046 江苏省南京市栖霞***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种规避机器翻译译文片段重复方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种规避机器翻译译文片段重复的方法，其特征在于：在机器翻译的贪婪算法解码过程中，利用译文重复片段检测机制，对重复的生成的目标词语的生成概率进行惩罚，随着重复片段的长度增加，依次对目标词生成概率进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的；具体包括以下步骤：

步骤1：数据处理：按照句子对的形式处理好双语平行语料，所述形式为：源语言句子，目标语言句子，即(s_i,t_i)i＝1,2,3,…,n，其中，i表示语料中的第i对双语句对，n表双语句对的数量；

步骤2：编码阶段：采用BiLSTM对源语言句子序列进行编码，得到编码向量，采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码，保证捕获每个词的上下文语义信息；

步骤3：解码阶段：利用步骤2得到的编码向量，进行解码；

步骤4：生成译文：对目标词表计算生成概率、检测重复片段，并进行重复概率惩罚，从而达到规避机器翻译生成重复片段的目的；

所述步骤3的解码公式如下：

s_i＝LSTM(s_i-1,y_i-1,c_i)

其中，α_ij是注意力权重，h_j是源语言句子中第j个词的向量表示，h_k是源语言句子中第k个词的向量表示，y_i-1是上一时刻解码得到的词，c_i是注意力向量，s_i-1表示上一时刻解码器的隐状态，s_i表示第i时刻解码器的隐状态；

所述步骤4中对目标词表计算生成概率：从第一时刻i＝1，计算词表中每个词的生成概率，计算公式如下：

其中，b_k()是非线性变换函数，exp()是指数函数，y_i是i时刻解码得到的词,P(yi)表示i时刻生成目标词y_i的概率。

2.根据权利要求1所述的一种规避机器翻译译文片段重复的方法，其特征在于：所述步骤2的计算公式如下：

其中，v_t表示t时刻下源语言句子文本中词x_t的词向量，是正向编码上一时刻的隐状态，是反向编码下一时刻的隐状态，表示t时刻正向句子文本的编码向量，表示t时刻反向句子文本的编码向量。

3.根据权利要求1所述的一种规避机器翻译译文片段重复的方法，其特征在于：所述步骤4中检测重复片段：译文中每生成一个新的目标语言词，进行重复检测，具体为：

设i时刻译文为：X₁，X₂，X₃，…,X_i-1，X_i,译文重复检测方法为：

(1)若X_i-1＝X_i，则重复长度为1；

(2)若X_i-2＝X_i-1＝X_i，则重复长度为2；

(3)若X_i-3＝X_i-2＝X_i-1＝X_i，则重复长度为3；

(4)若X_i-4＝X_i-3＝X_i-2＝X_i-1＝X_i，则重复长度为4。

4.根据权利要求1所述的一种规避机器翻译译文片段重复的方法，其特征在于：所述步骤4中的重复概率惩罚：依据重复长度对概率进行不同程度的惩罚，随着重复片段的长度增加，依次对目标词进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京新一代人工智能研究院有限公司，未经南京新一代人工智能研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110743012.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载