[发明专利]文档辅助翻译方法及装置在审
申请号: | 202110075040.2 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112766003A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 樊兵兵 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张睿 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 辅助 翻译 方法 装置 | ||
本发明提供一种文档辅助翻译方法及装置,该方法包括:将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析文档中和文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,将待翻译句子、匹配的术语和语料写入excel,标识出无需翻译的句子,并把重复句子行进行标识锁定;从语料库中获取每个句子匹配到的语料的译文,以供译员对每个句子进行翻译;根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文,进行术语语料检查及漏译检查,最终按照段段对照、句句对照、纯译文模式进行文档还原完成翻译。本发明提高了待翻译文档翻译的质量和效率,降低翻译成本。
技术领域
本发明涉及翻译辅助处理技术领域,尤其涉及一种文档辅助翻译方法及装置。
背景技术
随着科学技术的发展,语言处理领域的研究很多。其中,在智能翻译方面,用户只要输入文本,就可以通过智能翻译工具将其翻译成所需的语言。但语言组织的组织结构比较复杂且有的词语可能有多个意思,因此翻译工具翻译的结果一般不太理想。
在对翻译的精度要求较高的场景中,需要译员进行翻译。译员在对文档进行翻译时,依次对文档的每个句子进行翻译。由于译员的知识储备有限,需要安装其他翻译辅助工具。例如,通过翻译辅助工具查找文档中术语的翻译。从而导致翻译需要耗费大量时间和成本。
发明内容
本发明提供一种文档辅助翻译方法及装置,用以解决现有技术中译员手动翻译耗时长,成本高的缺陷,实现提高译员翻译效率,降低翻译成本。
本发明提供一种文档辅助翻译方法,包括:
将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
根据本发明提供的一种文档辅助翻译方法,所述将待翻译文档拆分成多个句子包括:
基于Aspose.words类库中的DOM将待翻译文档转换成Document对象;
提取所述Document对象中的所有段落和表格;
对每个段落进行语种识别,根据每个段落的语种的断句符号将每个段落拆分成句子;
将所述表格中每行的文本内容作为单个句子。
根据本发明提供的一种文档辅助翻译方法,将每个句子与语料库中的语料进行匹配,获取每个句子匹配到的语料包括:
统计每个句子的信息和每个语料的信息;
基于AhoCorasickDoubleArrayTrie将每个句子的信息与各语料的信息进行匹配,获取每个句子的信息与各语料的信息之间的匹配率;
将匹配率大于预设阈值的语料作为每个句子匹配到的语料。
根据本发明提供的一种文档辅助翻译方法,所述将所述句子及匹配的术语和语料写入待译excel表格,包括:
以每个句子的原文、译文、匹配到的术语和语料为列生成待译excel表格;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110075040.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电润湿微夹持器及小微物体的夹持方法
- 下一篇:一种锅炉给水泵的排气装置