[发明专利]基于重复句检测的翻译校正方法与系统在审
申请号: | 201811199856.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109359306A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 郑丽华 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校正 校正结果 质量校正 翻译 重复 翻译结果 检测 不一致 保证 | ||
本发明提供了一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行多种方式的质量校正,从而保证翻译成果中的重复句的翻译结果的一致准确性。多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。
技术领域
本申请涉及翻译技术领域,尤其涉及一种基于重复句检测的翻译校正方法与系统。
背景技术
在一些特定场合,翻译人员必须保证翻译结果的高度准确性和统一性,而不允许随意变化。在这些场合中,相同语境中的相同句子的翻译结果必须统一,不管是同一个人翻译还是不同人翻译,在最后的整体翻译结果中,对于同一个句子的翻译结果也应当保持相当程度上的一致性,以体现翻译结果的严肃和公正。这些场合主要包括涉及法律的文书、涉外合同、政府公告/新闻稿、专业教科书等。
涉外合同中包含大量的重复模板语句、涉及法律的文书例如涉外专利由于撰写特点也存在大量的重复语句,如果不能保持前后同一重复句子的翻译一致性,将极大的损害其权威性。
然而,在当前的翻译工作中,针对上述特定场合的翻译需求,翻译人员很难一开始就做到保证同一个句子的翻译前后一致,因为无法预判是否存在同一个句子,更无法预知其他人对同一个句子的翻译结果是否与自己一致。
通常情况下只能先完成各自翻译任务,后续再进行处理。然而,目前的后续处理都是纯人工进行,耗时费力;即使可以采用计算机代替人工,但是其针对的翻译量巨大,效率极低。
发明内容
本发明的技术方案至少从以下几个方面解决了上述问题。
在本发明的第一个方面,提供了一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行校正,从而保证翻译成果中的重复句的翻译结果的一致准确性。
这里,已有的翻译成果,包括翻译前的语料和对应的翻译后的语料。
发明人经过长期的翻译工作意识到,对于已经完成的翻译成果,需要校正的部分仅仅是一小部分特定的重复句子,大部分句子是不需要校正的的。因此本发明的第一个要解决的问题是如何高效快速的检测出潜在的需要校正的重复句。
首先,本发明需要设置一个关注数据库,所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括Magazine (弹匣),因为有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;
其次,本发明需要设置一个关注阈值范围。所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。
接下来,本发明需要在已有的翻译结果中查找满足条件的句子,检测出重复句子。
满足条件包括:
翻译结果中的当前句子长度;和或;当前句子是否包含关注数据库中的词汇。
这里包括两个步骤:
(1)首先查找出满足上述条件的句子,构成满足条件的句子集;
(2)从满足条件的句子集合中,检测出重复句子。
由于步骤(1)的存在,本发明检测重复句子的工作量得到了大大降低;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811199856.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多语言同声互译的方法和设备
- 下一篇:自动识别语种的翻译方法、装置及设备