[发明专利]用于翻译的方法和装置有效
申请号: | 201911308094.8 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111104796B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 熊皓;何中军;李芝;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/117;G06F40/56;G06N3/084 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 翻译 方法 装置 | ||
本公开实施例公开了用于翻译的方法和装置。方法包括:获取用户输入的源语言文本和用户输入的初始语法树;将源语言文本和初始语法树,输入翻译模型的语法分析网络,得到语法分析网络输出的优化语法树;将源语言文本和优化语法树,输入翻译模型的语法翻译网络,得到语法翻译网络输出的、符合目标语法结构的目标语言文本,其中,目标语法结构为语法分析网络输出的优化语法树所指示的语法结构。该方法可以提高输出的目标语言文本的针对性,使得输出的目标语言文本更为符合用户所期望的译文的风格,从而更为符合不同翻译场景的需求。
技术领域
本公开涉及计算机技术领域,具体涉及翻译技术领域,尤其涉及用于翻译的方法和装置。
背景技术
传统的翻译模型生成的翻译句子风格取决于使用的训练语料中句子的翻译风格。例如,大部分用于翻译的训练语料都是书面语表达,特点是用词较为严谨,使用的复杂句式较多。
而在实际应用中,对于一些口语如旅游场景的翻译、同声传译等等,通常要求翻译的文本较为简洁,尽可能的不产生长距离依赖的译文。基于这个需求,有必要强制生成指定语法的译文,使得译文满足各种场景的需求。
现有技术中,主流神经网络翻译模型采用的是端到端的解决方案,首先构造大规模的源语言文本-目标语言文本的翻译句对,然后利用端到端翻译模型在此句对上训练来优化模型参数。生成指定语法的译文时,通过增加对应译文风格的训练语料来实现,如果要翻译口语句子则使用口语训练语料进行再次增量式训练。在测试时一般是给定源语言文本来直接生成目标语言文本。
然而,现有技术中生成指定语法的译文的方法,需要采集相应的训练语料,而训练语料的获取通常需要一定的人力成本进行标注。此外,利用训练语料增量式训练后的翻译模型,也无法保证翻译特定句子时一定会产生期望语法结构的译文。
发明内容
本公开实施例提供了用于翻译的方法和装置。
第一方面,本公开实施例提供了一种用于翻译的方法,包括:获取用户输入的源语言文本和用户输入的初始语法树;将源语言文本和初始语法树,输入翻译模型的语法分析网络,得到语法分析网络输出的优化语法树;将源语言文本和优化语法树,输入翻译模型的语法翻译网络,得到语法翻译网络输出的、符合目标语法结构的目标语言文本,其中,目标语法结构为语法分析网络输出的优化语法树所指示的语法结构。
在一些实施例中,将源语言文本和初始语法树输入翻译模型的语法分析网络,得到语法分析网络输出的对应目标语言文本的优化语法树包括:将源语言文本的词向量表达和初始语法树的词向量表达相加或拼接,得到语法分析词向量表达;采用注意力机制,确定语法分析词向量表达的注意力结果;将语法分析词向量表达的注意力结果,输入翻译模型的语法分析网络,得到语法分析网络输出的采用目标编码方式编码的优化语法树,其中,目标编码方式为目标语言文本所采用的编码方式。
在一些实施例中,将源语言文本和优化语法树,输入翻译模型的语法翻译网络,得到语法翻译网络输出的、符合目标语法结构的目标语言文本包括:将源语言文本的词向量表达和优化语法树的词向量表达相加或拼接,得到语法翻译词向量表达;采用注意力机制,确定语法翻译词向量表达的注意力结果;将语法翻译词向量表达的注意力结果,输入翻译模型的语法翻译网络,得到语法翻译网络输出的、符合目标语法结构的目标语言文本。
在一些实施例中,翻译模型的语法分析网络采用以下步骤训练得到:采用语法标注工具,对翻译句对中的目标语句进行语法标注,生成与目标语句对应的优化语法树;选取与目标语句对应的优化语法树的部分节点,生成与目标语句对应的初始语法树;从翻译句对中,获取与目标语句对应的源语句;将与目标语句对应的源语句、与目标语句对应的初始语法树作为输入,将与目标语句对应的优化语法树作为期望输出,训练翻译模型的语法分析网络。
在一些实施例中,翻译模型的语法翻译网络采用以下步骤训练得到:将与目标语句对应的源语句、与目标语句对应的优化语法树作为输入,将目标语句作为期望输出,训练翻译模型的语法翻译网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911308094.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏焊带模具的清洗方法
- 下一篇:一种电池放电保护方法、装置、设备和介质