[发明专利]一种基于强制解码的动态抽取翻译模板的方法有效

专利信息
申请号: 201610420062.7 申请日: 2016-06-13
公开(公告)号: CN107491441B 公开(公告)日: 2020-07-17
发明(设计)人: 王强;杨木润;肖桐;朱靖波 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/42 分类号: G06F40/42;G06F40/58
代理公司: 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人: 李晓光
地址: 110003 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强制 解码 动态 抽取 翻译 模板 方法
【权利要求书】:

1.一种基于强制解码的动态抽取翻译模板的方法,其特征在于包括以下步骤:

1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的平行句对;

2)用基于短语的统计机器翻译系统对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;

3)输入待翻译的源语句子,对待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;

4)从分词后的平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;

5)利用翻译推导信息及短语对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板;

对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息为:

对于每一个分词后的平行句对,使用基于短语的统计机器翻译系统对其进行强制解码,获得强制解码结果;

当一个分词后的平行句对存在多个强制解码结果时,从多个强制解码的结果中选择最优的解码结果,利用下式的线性模型计算每一个强制解码结果的得分,选择最高得分的强制解码结果:

其中,D为强制解码结果,S(D)为强制解码结果的得分,α为翻译推导个数的权重,L为翻译推导个数,h(di)为翻译推导的句法契合度,di为强制解结果中的一个翻译推导,i为翻译推导的序号,β为所有翻译推导句法契合度的平均值的权重;

将树结构存储的解码路径信息转换为线性结构,线性顺序按优先级依次为:源语短语长度小的优先、源语短语起始位置靠前的优先。

2.按权利要求1所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项为:

对已输入的双语平行数据的源语部分建立倒排索引,倒排索引中被检索的对象是单词,检索到的内容是出现该单词的句子以及在句子中的位置信息;

对于输入的已分词的待翻译的源语句子,在倒排索引中查找出所有相似的分词后的平行句对的源语;

使用Dice系数来衡量已分词的待翻译的源语句子与倒排索引中查找出的相似的分词后的平行句对的源语间的相似程度:

其中,s1为分词后的待翻译的源语句子,s2为查找出的相似的分词后的平行句对的源语,Dice(s1,s2)为s1和s2之间的相似度得分,same(s1,s2)为s1和s2之间相同词的个数,ls1为s1中的词汇数,ls2为s2中的词汇数。

3.按权利要求1所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:利用翻译推导信息及短语对对齐信息、分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板为:

符合强制解码产生的源语短语切分范围且能包含差异项的长度最小的短语片段;

在产生翻译模板过程中,根据差异项信息的不同,可以将每个差异项分为插入、删除、修改这三种状态分别进行处理;

若多个差异项产生的非终结符之间有交集时,对相交的非终结符合并,使得所有非终结符之间互不相交;

上述非终结符即可动态产生基于待翻译句子信息的最优翻译模板。

4.按权利要求3所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:对插入状态进行处理为包括插入点在一个短语片段内和在两个短语片段之间两种情况:

若插入点在一个短语片段内,则直接将此短语片段作为最终的非终结符;

否则插入点在两个短语片段之间,则按照强制解码生成的翻译推导树回退,直到回退到包含这两个短语片段的最小的源语短语片段,且该最小的源语短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610420062.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top