[发明专利]文档翻译方法、装置、电子设备及存储介质在审
申请号: | 202011605004.4 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633015A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 张芃 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李文清 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 翻译 方法 装置 电子设备 存储 介质 | ||
本申请涉及计算机技术领域,提供了一种文档翻译方法、装置、电子设备及存储介质,其中方法包括:确定文档中的多个待翻译片段;将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段;所述翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;基于每一待翻译片段的译文片段,确定所述文档的翻译结果。本申请提供的方法、装置、电子设备及存储介质,利用了已有的历史翻译数据,减少了翻译人员的工作量,实现了文档翻译自动化,提高了文档翻译效率,保证了翻译结果的一致性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档翻译方法、装置、电子设备及存储介质。
背景技术
在文档翻译项目中,特别是具备大量格式化内容或具备大量相同内容的连贯性翻译项目中,主要依靠人工翻译的方式,翻译时间长,翻译效率低,并且不同的翻译人员翻译出的文档不一致,导致相同内容的翻译结果不一致。
发明内容
本申请提供一种文档翻译方法、装置、电子设备及存储介质,用以解决现有技术中文档的翻译时间长,翻译效率低的问题。
本申请提供一种文档翻译方法,包括:
确定文档中的多个待翻译片段;
将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段;所述翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;
基于每一待翻译片段的译文片段,确定所述文档的翻译结果。
根据本申请提供的文档翻译方法,所述将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段,包括:
将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定与所述任一待翻译片段相匹配的多个原文片段;
基于所述任一待翻译片段,所述多个原文片段以及每一原文片段的译文片段,确定所述任一待翻译片段的译文片段。
根据本申请提供的文档翻译方法,所述基于所述任一待翻译片段,所述多个原文片段以及每一原文片段的译文片段,确定所述任一待翻译片段的译文片段,包括:
基于所述任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,确定所述任一待翻译片段的候选原文片段;
将所述候选原文片段对应的译文片段作为所述任一待翻译片段的译文片段。
根据本申请提供的文档翻译方法,所述任一待翻译片段的关联片段为所述任一待翻译片段在所述文档中的上下文片段。
根据本申请提供的文档翻译方法,所述确定文档中的多个待翻译片段,包括:
对所述文档进行片段划分,确定所述文档的所有片段;
基于所述文档中散列值相同的片段的关联片段之间的语义相似度,对所述散列值相同的片段进行聚类,得到多个语义相似类,并将每一语义相似类中的任一片段作为每一语义相似类对应的待翻译片段;
基于所述多个语义相似类以及每一语义相似类对应的待翻译片段,确定所述文档中的多个待翻译片段。
根据本申请提供的文档翻译方法,所述基于每一待翻译片段的译文片段,确定所述文档的翻译结果,包括:
基于每一语义相似类中任一片段的译文片段,确定所述每一语义相似类中所有片段的译文片段基于所述文档中的所有片段的译文片段,确定所述文档的翻译结果。
根据本申请提供的文档翻译方法,所述对所述文档进行片段划分,确定所述文档的所有片段,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011605004.4/2.html,转载请声明来源钻瓜专利网。