[发明专利]一种词语对齐方法及装置无效
申请号: | 201310389092.2 | 申请日: | 2013-08-30 |
公开(公告)号: | CN103425638A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 沈世奇;刘洋;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词语 对齐 方法 装置 | ||
1.一种词语对齐方法,其特征在于,包括如下步骤:
A、选取不同的词语对齐特征分别建立判别式子模型一和判别式子模型二;
B、搜索词语对齐空间,分别获得上述两个判别式子模型的最优对齐中间结果;
C、利用对偶分解算法融合上述判别式子模型一和判别式子模型二的最优对齐中间结果,获得最终词语对齐结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤A前还包括步骤:
A′、构建数据集和进行预处理,并使用生成式模型对训练集中的训练语料进行训练,得到模型参数;
所述构建数据集包括收集双语句对,选择训练集、开发集和测试集;
所述进行预处理包括对数据集中源语言文本和目标语言文本中的句子切分成词,以及统一转换大小写。
3.根据权利要求2所述的方法,其特征在于,所述模型参数包括源语言和目标语言之间的翻译概率和繁殖概率;
所述步骤A中的词语对齐特征包括上述翻译概率和繁殖概率;
所述词语对齐特征还包括:精准匹配数量、交叉数量、邻居数量、连接的词语数量、兄弟距离、连线数量、特殊连线数量。
4.根据权利要求3所述的方法,其特征在于,所述判别式子模型一是基于全部9种词语对齐特征构建的;
所述判别式子模型二是基于全部9种中的任6种词语对齐特征构建的。
5.根据权利要求1所述的方法,其特征在于,所述步骤B具体是通过按序执行以下步骤实现的:
B1、对每个判别式子模型的每个词语对齐特征设置初始特征权重作为当前特征权重;
B2、基于每个词语对齐特征的当前特征权重,在对齐空间中分别选取判别式子模型一和判别式子模型二的最优对齐作为对齐中间结果;
B3、以开发集标注语料为参考,获得上述对齐中间结果的词语对齐准确度,使用最小错误率训练算法,逐个调整当前特征权重,分别得到两个判别式子模型对应的每个词语对齐特征的最优特征权重,将当前特征权重更新为所述最优特征权重;
B4、再次执行步骤B2,执行结果分别为判别式子模型一和判别式子模型二的最优特征权重下的最优对齐中间结果。
6.根据权利要求5所述的方法,其特征在于,所述步骤B2中所述选取判别式子模型一和判别式子模型二的最优对齐具体为:
采用柱搜索方法搜索对齐空间,计算搜索范围内每个对齐的分数:
其中f表示源语言句子,e表示目标语言句子,a表示词语对齐,λm表示不同词语对齐特征的当前特征权重,hm(f,e,a)表示不同的词语对齐特征;
选取分数最高的对齐作为最优对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310389092.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置和信息处理方法
- 下一篇:太阳能泥水分离系统