[发明专利]使用神经网络处理文本序列有效
申请号: | 201780073530.0 | 申请日: | 2017-10-24 |
公开(公告)号: | CN110023963B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | N.E.卡尔奇布伦纳;K.西蒙延;L.埃斯佩霍尔特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/048;G06N3/082;G06N3/0455;G06F40/58 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 处理 文本 序列 | ||
1.一种由一个或多个计算机实现的神经机器翻译系统,所述神经机器翻译系统被配置为接收表示源自然语言中的单词的源序列的源嵌套的输入序列,并且生成表示单词的目标序列的目标嵌套的输出序列,所述单词的目标序列是源序列到目标自然语言的翻译,所述神经机器翻译系统包括:
扩张卷积神经网络,被配置为处理源嵌套的输入序列以生成源序列的编码表示;以及
掩蔽的扩张卷积神经网络,被配置为处理源序列的编码表示以生成目标嵌套的输出序列,
其中,所述掩蔽的扩张卷积神经网络被配置为使用动态展开来生成输出序列作为可变长度输出序列,其中解码器基于先前生成的目标嵌套和编码源表示迭代地生成目标嵌套。
2.根据权利要求1所述的神经机器翻译系统,其中,所述编码表示是包括对于每个源嵌套的相应数据列的矩阵,并且其中,在生成输出序列的每个迭代,所述掩蔽的扩张卷积网络被配置为将编码表示的对应列作为输入并生成目标嵌套。
3.根据权利要求2所述的神经机器翻译系统,其中,对于不具有编码表示中的对应列的每个迭代,所述系统被配置为向编码表示添加与该迭代对应的新列并将该列中的值设置为零。
4.根据权利要求2或3所述的神经机器翻译系统,其中,所述系统被配置为,在每个迭代,使所述掩蔽的扩张卷积神经网络以在所述迭代之前的迭代的编码表示和目标嵌套为条件。
5.根据权利要求1所述的神经机器翻译系统,其中,所述扩张卷积神经网络被配置为生成具有与源嵌套的输入序列相同长度的源序列的编码表示,从而在整个扩张卷积神经网络中保持源嵌套的表示的分辨率。
6.根据权利要求1所述的神经机器翻译系统,其中,所述掩蔽的扩张卷积神经网络包括多个一维掩蔽的扩张卷积神经网络层。
7.根据权利要求6所述的神经机器翻译系统,其中,所述多个一维掩蔽的扩张卷积神经网络层中特定的一个之后是子批次标准化层,其中,所述子批次标准化层被配置为在训练序列的批次上训练神经机器翻译系统期间:
确定由特定的一维掩蔽的扩张卷积神经网络层对于所述训练序列的批次的辅助子批次中的训练序列生成的输出的批次标准化统计;和
使用批次标准化统计标准化由特定的一维掩蔽的扩张卷积神经网络层对于所述训练序列的批次的不同于所述辅助子批次的主要子批次中的训练序列生成的输出。
8.根据权利要求6或7所述的神经机器翻译系统,其中,所述多个一维掩蔽的扩张卷积神经网络层中的一个或多个被包裹在包含一个或多个附加卷积层的残余块中。
9.根据权利要求8所述的神经机器翻译系统,其中,所述残余块包括修正线性单元ReLU激活层。
10.根据权利要求8所述的神经机器翻译系统,其中,所述残余块包括乘法单元激活层。
11.根据权利要求6或7所述的神经机器翻译系统,其中,所述多个一维掩蔽的扩张卷积神经网络层被分组为多个组,并且其中,在每个组内,该组中的一维掩蔽的扩张卷积神经网络层的扩张率每层翻倍。
12.根据权利要求1所述的神经机器翻译系统,其中,每个源嵌套是相应的n元语法嵌套袋,并且其中,对于源序列中的给定字符,该字符的n元语法嵌套袋是源序列中与该给定字符的相邻的字符的n元语法嵌套的组合。
13.根据权利要求12所述的神经机器翻译系统,其中,所述给定字符的n元语法嵌套袋是对于范围从1到k的n、与该给定字符相邻的n元语法的n元语法嵌套的总和,其中,k是大于或等于2的预定正整数。
14.根据权利要求12或13所述的神经机器翻译系统,还包括:
输入子系统,被配置为:
接收源序列;和
从源序列生成n元语法嵌套袋的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780073530.0/1.html,转载请声明来源钻瓜专利网。