[发明专利]一种全原文参考的在线翻译系统在审
申请号: | 201711175575.7 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107943797A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 罗伟峰;闫昊;车双武 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙)11548 | 代理人: | 李静 |
地址: | 430000 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 原文 参考 在线翻译 系统 | ||
技术领域
本发明涉及文档解析技术和机器辅助翻译(CAT)技术领域,尤其涉及到一种在线翻译方法。
背景技术
目前市面上所有相关“在线辅助翻译平台”所使用的技术方案均是将文档中的纯文本格式的内容提取出来,进行断句并切分,最终将所有句子列举整合到翻译表格中。翻译表格的第1列为原文句子列表,第2列为译文编辑框。除了纯文本格式的文字之外,其它格式的对象,如文本框、公式、图片等对象都不会出现在翻译界面中。
这样做的弊端显而易见,翻译人员在平台上进行翻译的过程中,丧失了对全文上下文内容的整体观感。特别是一些工程类稿件或者是产品介绍类的稿件中,必须要对着原文附图才能理解文章句子的真实意思。另外,由于目前自然语言学处理能力还并非完全成熟,采用软件程序进行“断句”操作的时候难免会产生错误,而错误的断句导致句子意思连贯性的损失,对译员的翻译也会带来很严重的影响。
因此,现有技术采用的仅仅将纯文本提取出源文档并最终形成一种表格模式的翻译形式,影响翻译效率以及翻译质量。
发明内容
本发明所要解决的技术问题是提供一种全原文参考的在线翻译系统,以克服传统在线翻译平台的弊病。
为解决上述技术问题,本发明提供一种全原文参考的在线翻译系统,包括:
第一子系统,用于调用现有的商业化组件,将原始的待翻译文档转换成为HTML文件;
第二子系统,用于整理所述HTML文件;所述整理HTML文件包括:对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识;
第三子系统,用于创建基于web浏览器的翻译界面,所述翻译界面包括原文译文展示窗口和译员交互窗口;读取所述HTML文件,将HTML文件中的元素全部显示在所述原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;以句子为单位,接收译员的对该句子的翻译文本输入及编辑,并将翻译文本写入所述该句子的译文标识指向的译文段,然后,刷新显示所述原文译文展示窗口,此时,所述原文译文展示窗口中被翻译过的句子的原文后有译文显示;
第四子系统,用于调用现有的商业化组件,将HTML文件中的翻译文本转换成为与原始的待翻译文档相同格式的文档。
进一步的,所述第三子系统,还用于刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
所述第三子系统,还用于调用辅助翻译系统,所述辅助翻译系统对当前选中的句子进行翻译,并将翻译文本返回所述翻译文本的输入、编辑窗口。
更优选的,所述第三子系统创建的翻译界面还包括翻译词典窗口,所述翻译词典窗口接收译员输入的字、词或短语,然后调用翻译词典组件,对所输入的字、词或短语进行翻译,并将显示翻译结果显示在翻译词典窗口。
更进一步的,所述第三子系统,还用于接收译员选择翻译语种的选择输入,并将翻译语种作为调用参数传递给辅助翻译系统、翻译词典组件。
所述第二子系统对所述HTML文件中文本进行断句处理包括:寻找HTML文件中的文字并根据断句逻辑合并或者拆分原始的HTML元素,得到句子单元。
有益效果:本发明摒弃了现有“表格在线翻译”的模式,采取了全新的“原文在线翻译”的模式,具有全原文参考在线翻译的特点。避免了传统翻译模式下的语句碎片化带给译员的语义撕裂感,有利于译员把握原文含义,大幅提高翻译质量。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明的逻辑结构框图。
图2为本发明的整体的实施流程图。
图3为本发明的第三子系统具体实施下的应用场景图。
具体实施方式
如图1并结合图2所示,全原文参考的在线翻译系统,包括第一子系统1,第二子系统2,第三子系统3和第四子系统4。
第一子系统1用于调用现有的商业化组件,将原始的待翻译文档5转换成为HTML文件6。
第二子系统2用于整理HTML文件6,根据原文包括的元素,HTML文件的元素包括句子、文本框、图片、图表。整理HTML文件包括:对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711175575.7/2.html,转载请声明来源钻瓜专利网。