[发明专利]一种多种语言混合文件的翻译方法及装置在审
申请号: | 202010519194.1 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111652007A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 刘鹏;周玉;邓彪 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多种 语言 混合 文件 翻译 方法 装置 | ||
本发明提供一种多种语言混合文件的翻译方法及装置,包括:对待翻译文件的文件类型进行解析,得到文件类型;调用对应的文件解析模块,对待翻译文件进行文件解析,将待翻译文件解析成待翻译的文本;待翻译的文本包括文本内容信息以及文本属性信息;识别每个句子的类型,并采用对应翻译处理方式。输出翻译后文件。优点为:在对待翻译文件进行翻译时,仅对待翻译文件中文本信息进行翻译,对于图和表格中的非文本内容不进行解析,最后,根据位置和格式信息,将译文直接回填到待翻译文件的对应位置,既加快了翻译速度,也保证了译文和原文格式的统一性。本发明提供的一种多种语言混合文件的翻译方法及装置,实现了对多种语言混合文件的快速高效翻译。
技术领域
本发明属于翻译技术领域,具体涉及一种多种语言混合文件的翻译方法及装置。
背景技术
机器翻译是自然语言处理的翻译范围,主要研究如何将一种语言自动翻译为另外一种语言,解决人们之间的语言障碍问题。经过几十年的发展,机器翻译性能逐步提升,翻译效果显著提高。
文件翻译是机器翻译的重要应用场景,用于将一种语言的输入文件,自动翻译为另一种语言。
然而,现有的文件翻译方法,只能处理单一语种的翻译任务,即输入文件中只包含一种语言,无法处理输入文件中包括多种语种的翻译任务。
发明内容
针对现有技术存在的缺陷,本发明提供一种多种语言混合文件的翻译方法及装置,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种多种语言混合文件的翻译方法,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519194.1/2.html,转载请声明来源钻瓜专利网。