[发明专利]动态生成多语言行业标准格式的海量语言资产的方法有效

申请号：	201210383201.5	申请日：	2012-10-11
公开（公告）号：	CN103729346A	公开（公告）日：	2014-04-16
发明（设计）人：	杜金林;朱懿;杜勇	申请（专利权）人：	上海勇金懿信息科技有限公司
主分类号：	G06F17/28	分类号：	G06F17/28;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	200439 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动态生成语言行业标准格式海量资产方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种动态生成多语言行业标准格式的海量语言资产的方法，用于CAT软件或者多语言翻译系统中的TM模块的开发和应用，属多语言机器翻译技术领域。

背景技术

TM(Translation Memory翻译记忆)是计算机辅助翻译(CAT)领域广泛采用的技术之一，借助TM技术可以显著提高翻译效率，保证内容一致性。由于采用TM技术开发的CAT软件种类繁多，TM内容的存储格式千差万别，为了便于翻译机构以及CAT工具之间的TM数据交换，一种称为TMX(Translation Memory eXchange)的开放标准已经成功应用到本地化和翻译行业。

在软件和网站本地化翻译的过程中，需要处理的数据文件内容重复性比较大，另外由于内容更新频繁，且都是基于上一版本的更新，只是增加了少量新内容或者对原来的内容进行了少量修正，所以很有必要充分利用以前版本已经翻译的内容，而不需要重新翻译。

TM技术有效地重复利用这些已经翻译的内容，它采用片断(Segment)和TM库的方式提高翻译的效率，翻译数据库以“翻译单元(Translation Unit)”为数据单位，将源语言的各个句子与目标语言的句子建立对应链接关系。翻译人员采用TM的CAT工具翻译内容时，CAT工具不断将最新翻译的内容存储到TM库，对于要翻译的内容(如单词、短语、句子、段落)，它先在TM库中搜索该内容是否有匹配的内容，并且自动提供最接近的译法，翻译人员可方便地插入最匹配的译文。

随着翻译内容的不断丰富，TM库的容量不断增加，翻译人员不必为相同内容的再次重新翻译而苦恼，只需要专注于需要翻译的新内容即可，而且TM的准确性也能保证相同内容翻译的一致性。这是采用TM技术追求的目标。

然而，随着经济全球化的不断深入，软件/网站的本地化和全球化行业迅速发展，与此相呼应，各个采用T M技术开发的本地化工具和TM工具越来越多，但是这些工具是不同的厂家开发的，每家都有各自的文件数据存储格式。另外，对于一个本地化服务机构来说，经常为不同客户或相同客户的不同项目提供本地化翻译服务，由于不同客户和不同项目需要使用不同的本地化工具，经常由于各个本地化工具文件数据缺乏可以交换的标准格式，因此，很难重复使用以前积累的TM库资源。显然，TM库的标准格式亟待统一。

综上所述，随着经济全球化的不断深入，软件/网站的本地化和全球化行业迅速发展，除了对现有存储的TMX及TBX格式的语言资产(TM与术语资源)进行重用有助于提升产出与质量，降低成本。通常TMX或者TBX都是以一个语言对形式出现，如英文到中文，英文到德文等。然而，业界的技术还是停留在单一语言对格式进行支持的情况，还没有从现有的单一语言对里的相同内容自动生成多语言语言对的技术。

现有技术的缺点：1)现有的语言资产存储架构是二维的、单向的，源语种与各个目标语种间的对应关系无法打通；2)无法从海量单一语言TMX或TBX文件中相同内容自动获取多语言(多维度)、多向的语言对，造成资源的极大浪费，如需获取，势必造成巨大人工成本。

发明内容

为解决上述问题，本发明旨在提供一种动态生成多语言行业标准格式的海量语言资产的方法。本发明的技术方案如下：

一种动态生成多语言行业标准格式的海量语言资产的方法，包括以下步骤：

1、通过开发解析器将TMX、TBX等基于XML的标准格式的语料库、术语库中的内容读取出并导入到指定的数据库中；

2、在导入的同时，将自动匹配和放置相同内容不同语言对的数据库表，自动生成一句源文，多句匹配的目标语言的多语言数据库；

3、在用户使用时，根据用户指定的语言对，自动将搜索到的结果以翻译记忆的形式反馈给用户，以特定的格式呈现给最终用户进行重用；

4、当增加、更新多语言数据库时，将自动更新多语言的相关内容，保证语言资产在动态更新之后，可以继续让用户获取更新后的翻译记忆内容。

以上所述的动态生成多语言行业标准格式的海量语言资产的方法，作为优选方案：还包括：

采用λ语料解析模块，提供行业标准格式TMX和TBX的解析，将语料信息(包括源语言、目标语言等)读入内存，转换为二进制对象；

采用λ语料适配模块，提供对中间语言语料的匹配功能，并将相应目标语言语料存储到多语言语料矩阵正确位置；

采用λ语料生成模块，提供读取多语言语料矩阵内语料信息，并将其按照行业标准输出为TMX或TBX格式文件，方便归档备份语料或供其他兼容TMX或TBX的工具使用。