[发明专利]一种基于后处理技术的提高数字翻译质量的方法有效
申请号: | 201910095195.5 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109871550B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 王强;张哲旸 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/216;G06F40/284 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 处理 技术 提高 数字 翻译 质量 方法 | ||
1.一种基于后处理技术的提高数字翻译质量的方法,其特征在于,包括如下步骤:
步骤1:输入待翻译句子,将待翻译句子中的复杂数字替换为简单数字,并记录复杂数字;
步骤2:对替换后的待翻译句子进行分词处理以及子词切分处理,得到子词切分后的句子;
步骤3:对每一个子词切分后的句子进行翻译,得到翻译后句子;
步骤4:获取待翻译句子与翻译后句子的attention对齐信息,以获取与简单数字相对应的简单数字译文;
步骤5:通过复杂数字、简单数字和简单数字译文计算出正确数字译文;
步骤6:根据简单数字与简单数字译文之间的对应关系,使用正确数字译文替换简单数字译文,进而获取正确的翻译后句子;
步骤7:对正确的翻译后句子中数字部分及其对应单位进行单位正规化操作;
所述步骤1具体为:
步骤1.1:找到待翻译句子中数字部分,判断数字长度,将长度大于四位的复杂数字替换为四位以下的易翻译的简单数字;
步骤1.2:对于一个待翻译句子中存在多个复杂数字的情况,将多个复杂数字替换成不同的简单数字;
所述步骤5具体通过下列公式计算正确数字译文:
。
2.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法,其特征在于,所述步骤3具体为:
步骤3.1:通过大量分词后的双语句对学习子词词表;
步骤3.2:使用子词词表处理待翻译句子,将不常见的单词拆分为更为常见的子词形式。
3.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法,其特征在于,所述步骤4中具体为:
步骤4.1:获取待翻译句子与翻译后句子之间的attention概率表;
步骤4.2:在attention概率表中查询获得简单数字所对应的对齐概率最高的三个译文单词;
步骤4.3:从三个译文单词中选取出首位数字与简单数字的首位数字相同的简单数字译文,进而获取简单数字对应的简单数字译文。
4.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法,其特征在于,所述步骤6中具体为:
步骤6.1:利用步骤4中获得的attention对齐信息获得翻译后句子中的简单数字译文;
步骤6.2:使用正确数字译文替换简单数字译文,获得正确的翻译后句子。
5.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法,其特征在于,所述步骤7中具体为:
步骤7.1:建立单位和数字的对应表;
步骤7.2:获取正确数字译文后的单位,判断是否需要进行正规化操作;
步骤7.3:通过查表计算方式,将正确数字译文和单位计算为纯数字译文;
步骤7.4:计算纯数字译文整数部分位数,通过查表方式,将纯数字译文转化为正规化数字译文和正确单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910095195.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翻译系统
- 下一篇:一种智能用户手册生成方法、装置、终端及存储介质