[发明专利]一种基于文档片段的翻译处理方法在审
申请号: | 201410830632.0 | 申请日: | 2014-12-26 |
公开(公告)号: | CN104484323A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 江潮;王杰 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘杰 |
地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 片段 翻译 处理 方法 | ||
技术领域
本发明涉及计算机语言与信息处理技术领域,具体涉及到一种文档片段处理的方法。
背景技术
一个文档往往包括若干不同行业、领域的信息,在自动翻译领域,由于译员所熟悉的行业或专业领域的局限性,将一篇混合行业、领域文档交给某一个译员处理时,一方面译员处理很吃力,难以保证翻译质量。另一方面,对于翻译时限紧迫的任务,一个译员处理难以达到所需时限。如果能够合理的将一篇文档分成多个相对独立的不同行业、领域(主题)的文档片段,然后每个片段推送至相应的工作人员处理,则可达到多人并行处理,减少翻译时限的目的,同时有利于提高翻译处理的质量。
文本划分又称文本分割,是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界。这种预处理在很多领域有着极为重要的应用,比如在信息提取、文本解析、语言建模等领域。现有主要的文本分割技术主要基于语句-语义分析,为文本建构诸如PLSA模型、LDA模型或小世界模型,进行主题分割。
发明内容
本发明所要解决的技术问题是提供一种基于文档片段的翻译处理方法,以实现行业领域匹配的多人并行翻译处理。
为解决上述技术问题,本发明提供一种基于文档片段的翻译处理方法,包括以下步骤:
将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设置相应标记标签,所述标签记录句子在整篇文本中的位置;
根据主题将文档划分为包含若干句子的片段,并建立所述片段和句子的映射关系;
将所述片段分配给相应的译员进行翻译;
根据句子位置标签顺序对译后的片段进行组合,得到完成的文档译稿。
标记标签以XML方式将句子进行封装,保证数据的通用和交换性。
所述根据主题将文档划分为包含若干句子的片段,包括以下步骤:
对于行业领域主题关键字运行Gibbs抽样算法,迭代足够次;
以整句s作为LDA模型的文本d,遍历待分割文本的所有关键词记号,运行Gibbs抽样算法,迭代少数几次;
求取待分割文本词汇的概率分布P(w|s);
基于P(w|s),利用Clarity度量计算句间的相似值Sim;
结合局部最小值的边界估计策略,通过句间相似值Sim识别片段边界。
所述通过句间相似值Sim识别片段边界包括:假设待分割文本有n个整句,则相邻句间的相似值表为
SimTable={Sim1,Sim2,...Simi...Simn-1},
其中Simi=Sim(si,si+1),1≤i≤n-1在表中选择局部最小值Simmin(s1,s2);从每一个局部最小值出发向左、向右分别寻找距离最近的较大值Simmaxl以及Simmaxr,利用公式计算相对深度;令c为一常数,若相对深度drel(s1,s2)>c,则s1,s2分属于不同的片段。
本发明将一篇文档分成多个相对独立的不同行业、领域(主题)的文档片段,每个片段推送至相应的工作人员处理,达到多人并行处理,减少翻译时限的目的,同时有利于提高翻译处理的质量。且记录了句子和片段的映射关系,有利于译文的标记组合校对。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明具体实施方式的流程图。
具体实施方式
结合图1所述,本发明提供的基于文档片段的翻译处理方法,包括以下步骤:
步骤Ⅰ:将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设置相应标记标签,所述标签记录句子在整篇文本中的位置;标记标签以XML方式将句子进行封装,保证数据的通用和交换性。
步骤Ⅱ:根据主题将文档划分为包含若干句子的片段,并建立所述片段和句子的映射关系;根据主题将文档划分为包含若干句子的片段,基于LDA模型,包括以下步骤:
步骤1:对于行业领域主题关键字运行Gibbs抽样算法,迭代足够次;
步骤2:以整句s作为LDA模型下列公式(1)的文本d,遍历待分割文本的所有关键词记号,运行Gibbs抽样算法,迭代少数几次;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410830632.0/2.html,转载请声明来源钻瓜专利网。