[发明专利]文本翻译方法、装置、存储介质和计算机设备有效
申请号: | 201811033545.7 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109145315B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 涂兆鹏;王龙跃 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;何平 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 翻译 方法 装置 存储 介质 计算机 设备 | ||
1.一种文本翻译方法,包括:
获取初始源文本和重构源文本;所述重构源文本是在所述初始源文本中缺略词的位置处添加指代符而得到的源文本;
对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;
依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;
将依次解码得到的目标端向量构成目标端向量序列;
按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;
依据所述重构分数和所述各候选目标词,生成目标文本。
2.根据权利要求1所述的方法,其特征在于,所述获取初始源文本和重构源文本包括:
获取初始源文本;
通过预训练的缺略词还原模型确定所述初始源文本中缺略词的位置;
在所述缺略词的位置处添加指代符以得到重构源文本。
3.根据权利要求1所述的方法,其特征在于,所述依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词,包括:
依次获取当次的与所述源端向量序列对应的注意力分配权重向量;
根据所述注意力分配权重向量、以及所述源端向量序列,计算得到当次的内容向量;
依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标词。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述源端向量序列对应的源端注意力分配权重向量;
根据所述源端注意力分配权重向量、以及所述源端向量序列,计算得到源端内容向量;
获取与所述目标端向量序列对应的目标端注意力分配权重向量;
根据所述目标端注意力分配权重向量、以及所述目标端向量序列,计算得到目标端内容向量;
所述按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数,包括:
按照所述重构源文本,对所述源端内容向量和所述目标端内容向量进行重构评估处理,得到与各候选目标词对应的重构分数。
5.根据权利要求4所述的方法,其特征在于,所述按照所述重构源文本,对所述源端内容向量和所述目标端内容向量进行重构评估处理,得到与各候选目标词对应的重构分数,包括:
根据所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词对应的隐层状态向量;
根据与所述重构源文本中当前词对应的隐层状态向量、所述重构源文本中当前词的前一词的词向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词所对应的重构分数;
对与所述重构源文本中各词所对应的重构分数进行连乘运算,得到与各候选目标词对应的重构分数。
6.根据权利要求5所述的方法,其特征在于,所述获取与所述源端向量序列对应的源端注意力分配权重向量,包括:
对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、以及所述源端向量序列进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量;或,
对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端向量序列、以及所述目标端内容向量进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811033545.7/1.html,转载请声明来源钻瓜专利网。