[发明专利]一种译文中术语错译的纠正方法、系统及相关装置在审
申请号: | 201810600694.0 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108804428A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 洪宇;刘梦眙;姚建民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 译文 翻译 文本 纠正 候选翻译 计算机可读存储介质 机器翻译 纠正系统 纠正装置 领域术语 相关装置 源文本 申请 替换 | ||
本申请公开了一种译文中术语错译的纠正方法,所述纠正方法获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;将每一个伪翻译文本分别替换第一译文中所述原翻译文本得到N个第二译文,并对第一译文和所有第二译文执行回译操作得到N+1个回译文本;将源文本和所有回译文本进行文本比较确定第一译文的翻译准确程度,并根据翻译准确程度纠正目标术语的原翻译文本。本方法能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。本申请还公开了一种译文中术语错译的纠正系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,具有以上有益效果。
技术领域
本发明涉及机器翻译领域,特别涉及一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置。
背景技术
机器翻译技术是指使用计算机等计算设备将一种自然语言(即,源语言)的原文翻译为另一种自然语言(即,目标语言)的译文的技术。由于这一翻译过程由机器完成,所以与人工翻译相比,可以在相对短的时间处理大量的翻译工作。
但是,当使用机器翻译技术翻译有较多特定领域专业术语的文本时,由于通用机器翻译系统的训练语料中缺乏特定领域术语的翻译或者领域术语的翻译出现次数较少导致翻译概率较低,因此使用通用的机器翻译方法来翻译此类文本经常会出错。针对上述问题,现有技术中术语机器翻译文本纠正的方法为:先将输出的译文中每个单词看作判别的对象,构造词汇特征、句法特征等,选用适当的分类模型如最大熵分类器、随机森林、双向LSTM等,对每个单词打标签,判断单词的正误;若错误则对错译的术语进行纠正。但是这种方法在纠正术语错译的过程依赖于大量领域内资源,在面向领域未知的文本时,稀缺的语言资源将限制该类方法的通用性。
因此,如何在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。
为解决上述技术问题,本申请提供一种译文中术语错译的纠正方法,该纠正方法包括:
获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;
将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;
将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。
可选的,从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本包括:
计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。
可选的,获取第一译文中目标术语的原翻译文本包括:
获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。
可选的,将所述源文本和所有所述回译文本进行文本比较确定所述回译文本的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本包括:
利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810600694.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音机器翻译方法及装置
- 下一篇:一种基于深度学习的访客搜索行为特征提取方法