[发明专利]一种翻译文档存储与检索的方法在审

专利信息
申请号: 201611237773.7 申请日: 2016-12-28
公开(公告)号: CN106777268A 公开(公告)日: 2017-05-31
发明(设计)人: 张光凌 申请(专利权)人: 语联网(武汉)信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06F17/28
代理公司: 暂无信息 代理人: 暂无信息
地址: 430073 湖北省武汉市东湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 翻译 文档 存储 检索 方法
【说明书】:

技术领域

发明主要涉及技术领域为人工智能,具体涉及一种翻译文档存储与检索的方法。

背景技术

译员将文档翻译完成后,需要对翻译文档进行存储,传统存储方法是将文件按不同目录结构进行存储,通过目录结构对文档进行分门别类,当翻译文档增大、行业类别增多时,目录结构将变得极其复杂,存储时很不方便,也很难立即马上定位到合适的存储目录;当需要检索某个翻译文档时,需要耗费很大时间和人力去寻找,并且找到翻译文档后,还需要阅读文档内容,以人工的方式在文档寻找其中的常用句子、术语、语料,然后提供给翻译人员参考和应用;这种传统的方式存储效率低,存储结构复杂,不利于机器进行存储和检索,并且检索时需要大量的人力花费大量的时间进行参与,才能获取有限的常用句子、术语和语料。

发明内容

为解决上述技术问题,本发明提供了一种对已完成的翻译文档进行文本分析,对句子、术语、语料进行对齐,然后按译员、语种、行业进行分类,将句子对、术语对、语料对进行存储;当有待翻译的文档时,将待翻译的文档、待翻译文档所属行业、翻译语种要求输入系统,首先对待翻译文档进行断句处理,然后以句子方式去系统中检索,能很快检索出翻译过该行业和翻译语种要求的有经验译员信息,以及该译员的相关翻译文档,翻译过的句子、术语、语料会根据翻译语种的要求,以句子对、术语对、语料对的方式返回给用户。

本发明提供了一种翻译文档存储与检索的方法,其特征是包括以下步骤:

获取译稿库,所述译稿库包括若干语料和与语料对应的特征标签,所述语料包括原文、与原文对应的译文,所述特征标签包括译员信息、语种、行业;

对译稿库中的原文和译文进行断句处理,形成句子列表,所述句子列表包括若干个句子单元;

对句子列表中的句子单元进行语料对齐;

按照特征标签,对语料进行分类存储;

获取待译稿,输入查询标签,所述查询标签包括语种、行业;

对待译稿进行断句处理,形成句子列表;

对待译稿设置检索参数,所述检索参数包括句子列表、查询标签,用待译稿的检索参数在译稿库中进行语料检索,及语料匹配;

所述匹配包括完全匹配和模糊匹配;

记录语料的完全匹配次数;

记录语料的模糊匹配次数;

设置完全匹配次数的加权系数与模糊匹配次数的加权系数,将完全匹配次数与模糊匹配次数进行加权计算;

其中,所述完全匹配次数的加权系数与模糊匹配次数的加权系数的和等于1,所述完全匹配次数的加权系数大于模糊匹配次数的加权系数;

获取检索匹配到的结果,所述检索结果包括匹配到的译员信息、译员信息对应的译稿库中的原文和译文的句子列表及匹配度,按照匹配度显示。

进一步,所述对译稿库中的原文和译文进行断句处理,是将原文和译文转换成纯文本信息,并做段落对齐,将对齐后的段落进行断句处理。

进一步,所述对待译稿进行断句处理,是将待译稿转换成纯文本信息,并做段落对齐,将对齐后的段落进行断句处理。

进一步,所述模糊匹配是:将待译稿的句子列表做分词处理,去掉停用词和无意义的连接词、介词,然后把待译稿的句子列表的分词内容与译稿库中译文的句子单元做模糊匹配,统计相似度大于50%的句子个数。

进一步,所述设置完全匹配次数的加权系数与模糊匹配次数的加权系数,是根据经验值进行设置。

进一步,所述完全匹配次数的加权系数的经验值是70%,所述模糊匹配次数的加权系数的经验值是30%。

本发明的有益效果是:

1、对翻译文档的分类存储,提供了存储效率,便于文档存储定位;

2、对翻译文档的原文和译文进行文本分析,做句子对齐处理,一个句子对作为一个存储单元,有利于按句子检索;

3、系统存储方式减少了人力参与,节约了人力成本和时间成本;

4、提交待翻译文档进行检索,能够快速返回有相关经验的译员信息,便于译员的定位,减少通过人力来找寻译员的成本;

5、返回译员已翻译过的参考文档,便于提交给该译员进行参考,提高译员的翻译效率;

6、返回完全匹配的句子对、术语对、语料对,便于提交给该译员进行参考,提高译员的翻译效率;

7、返回模糊匹配的句子对、术语对、语料对,便于提交给该译员进行参考,提高译员的翻译效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611237773.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top