[发明专利]一种计算机辅助翻译方法及装置有效
申请号: | 202010519190.3 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111652006B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 刘鹏;周玉;邓彪 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机辅助 翻译 方法 装置 | ||
1.一种计算机辅助翻译方法,其特征在于,包括以下步骤:
步骤1,接收待翻译文本;
步骤2,根据术语表,匹配待翻译文本中的所有术语,从而在待翻译文本中,定位到每一个术语;
步骤3,将步骤2定位到的每一个术语,替换为特殊标记;其中,对于同一种术语,替换为相同的特殊标记;对于不同种的术语,替换为不相同的特殊标记;
步骤4,对于每一种术语,采用以下方法计算术语的每一种译文的原文匹配度:
步骤4.1,设原文语种的术语为e0,具有n种目标语种的译文,分别为c1、c2、C3...Cn;
步骤4.2,在原文语种的待翻译文本中,取术语e0的上下文信息,假设取术语e0的前面相邻的m个原文语种的词,分别为:e-m,...,e-2,e-1;取术语e0的后面相邻的u个原文语种的词,分别为:e1,e2,...,eu;
将术语e0的上下文信息和术语e0组成原文关键信息e-m,...,e-2,e-1,e0,e1,e2,...,eu;将原文关键信息分别和每一种目标语种的译文组成形成一种原文关键组合信息,然后以原文关键组合信息为查询条件,在搜索引擎中查找原文关键组合信息的出现次数,即:分别查找以下原文关键组合信息的出现次数:
count(c1)=query(e-m,...,e-2,e-1,e0,e1,e2,...,eu,c1)
count(c2)=query(e-m,...,e-2,e-1,e0,e1,e2,...,eu,c2)
count(c3)=query(e-m,...,e-2,e-1,e0,e1,e2,...,eu,c3)
……
count(cn)=query(e-m,...,e-2,e-1,e0,e1,e2,...,eu,cn)
其中:
count(c1)为译文c1对应的原文关键组合信息的出现次数;
count(c2)为译文c2对应的原文关键组合信息的出现次数;
count(c3)为译文c3对应的原文关键组合信息的出现次数;
依此类推
count(cn)为译文cn对应的原文关键组合信息的出现次数;
步骤4.3,对于术语e0的第i种目标语种译文ci,其中,i=1,2,...,n;采用以下公式计算第i种目标语种译文ci的原文匹配度Msrc(ci):
步骤5,步骤3将术语替换为特殊标记后,得到术语替换后的待翻译文本;然后,将术语替换后的待翻译文本输送到翻译引擎,使用机器翻译技术将其翻译为目标语种,得到候选译文;
步骤6,在候选译文中,定位到特殊标记,即定位到术语位置;根据候选译文中的术语位置,计算术语每种翻译的译文匹配度,具体方法为:
步骤6.1,假设术语e0替换为的特殊标记表示为e#0;在候选译文中,取特殊标记e#0的上下文信息,假设取特殊标记e#0的前面相邻的w个目标语种的词,分别为:p-w,...,p-2,p-1;取特殊标记e#0的后面相邻的v个目标语种的词,分别为:p1,p2,...,pv;
将特殊标记e#0的上下文信息组成译文关键信息:p-w,...,p-2,p-1,p1,p2,...,pv;
步骤6.2,术语e0共有n种目标语种的译文,分别为c1、c2、c3...cn;对于任意一种目标语种译文ci,按下面方法计算目标语种译文ci的译文匹配度Mtgt(ci):
A.1)采用下式计算目标语种译文ci的语言模型得分LM(ci):
LM(ci)=log(pword(p-w,...,p-2,p-1,p1,p2,...,pv))
其中:
采用大量原文语种的文本对语言模型进行训练,得到目标语种的语言模型;
然后,计算术语e0在候选译文中的上下文的语言模型得分,即为目标语种译文ci的语言模型得分;
pword(.)是根据目标语种的语言模型得到的表达式;
A.2)采用下式计算目标语种译文ci的词法得分POS(ci):
POS(ci)=log(ppos(p-w,...,p-2,p-1,p1,p2,...,pv))
其中:
采用大量原文语种的文本对词性序列训练,得到目标语种的词性序列模型;然后,计算术语e0在候选译文中的上下文的词性序列得分,即为目标语种译文ci的词性序列得分;
ppos(.)是根据目标语种的词性序列模型得到的表达式;
A.3)按照如下公式计算目标语种译文ci的译文匹配度Mtgt(ci):
Mtgt(ci)=β·LM(ci)+(1-β)·POS(ci)
其中:
β是0到1之间的译文匹配度系数;
步骤7,因此,对于术语e0的每种目标语种译文ci,均得到原文匹配度Msrc(ci)和译文匹配度Mtgt(ci);采用下式,计算术语e0的每种目标语种译文ci的最终得分M(ci):
M(ci)=α·Msrc(ci)+(1-α)·Mtgt(ci)
其中:
α是0到1之间的译文最终得分系数;
步骤8,将最终得分最高的目标语种译文表示为cmax;目标语种译文cmax即为术语e0的最终翻译译文;
根据术语e0的特殊标记,在步骤5得到的候选译文中定位到对应的特殊标记;然后,用最终翻译译文cmax替换对应的特殊标记,得到最终的翻译译文;
步骤9,输出最终的翻译译文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519190.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型靠椅
- 下一篇:一种辅助脉冲震荡用固定装置