[发明专利]文本翻译方法、装置、存储介质和计算机设备有效
申请号: | 201811033545.7 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109145315B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 涂兆鹏;王龙跃 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;何平 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 翻译 方法 装置 存储 介质 计算机 设备 | ||
本申请涉及一种文本翻译方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;将依次解码得到的目标端向量构成目标端向量序列;按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;依据所述重构分数和所述各候选目标词,生成目标文本。本申请提供的方案可以提高翻译质量。
技术领域
本申请涉及机器学习技术领域,特别是涉及一种文本翻译方法、装置、计算机可读存储介质和计算机设备。
背景技术
机器翻译是指通过计算机将一种自然语言文本(需翻译的自然语言文本一般称为源文本)翻译为另一种自然语言文本(翻译后的自然语言文本称为目标文本),以实现不同语种的文本之间的转换。而不同的语种之间会有不同的语法及句式习惯,比如,在汉语和日语等语言中,代词缺略是极为常见的现象,与之相反,在英、法等语言中,代词作为句子成分则必不可少。当从代词缺略语言(比如汉语)到非代词缺略语言(比如英语)翻译时,需要将隐含的缺略代词召回并正确地翻译出来,这给机器翻译带来了极大挑战。
传统的机器翻译方式,以中译英为例,为了减少缺少缺略代词所带来的影响,通常是借助平行语料库中中英代词省略的差异性,自动标注中文句子中的缺略代词。然后,利用此语料库训练基于神经网络的缺略代词还原系统,通过训练好的缺略代词还原系统对待翻译的汉语句子进行缺略代词还原的处理,再将处理后的待翻译句子(也就是补全了缺略代词的句子)传递给统计机器翻译系统进行翻译。
传统的机器翻译方式,常常由于缺略代词还原系统的低准确率带来错误传递,导致源端被添加了错误的代词从而使得翻译结果错误,导致了文本翻译准确率低的问题。
发明内容
基于此,有必要针对文本翻译准确率低的技术问题,提供一种文本翻译方法、装置、计算机可读存储介质和计算机设备。
一种文本翻译方法,包括:
获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;
对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;
依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;
将依次解码得到的目标端向量构成目标端向量序列;
按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;
依据所述重构分数和所述各候选目标词,生成目标文本。
一种文本翻译装置,所述装置包括:
获取模块,用于获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;
编码模块,用于对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;
解码模块,用于依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;
拼接模块,用于将依次解码得到的目标端向量构成目标端向量序列;
重构模块,用于按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811033545.7/2.html,转载请声明来源钻瓜专利网。