[发明专利]一种交互式抽取可比语料与双语词典的方法及其装置在审

申请号：	201410830446.7	申请日：	2014-12-25
公开（公告）号：	CN104572634A	公开（公告）日：	2015-04-29
发明（设计）人：	朱泽德;王绍祺;李淼;张健;陈雷;杨振新;卫林钰;曾新华;郑守国;李华龙	申请（专利权）人：	中国科学院合肥物质科学研究院
主分类号：	G06F17/28	分类号：	G06F17/28;G06F17/30
代理公司：	合肥天明专利事务所 34115	代理人：	张祥骞;奚华保
地址：	230031 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种交互式抽取可比语料双语词典方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种交互式抽取可比语料与双语词典的方法，其特征在于，包括以下步骤：

11)预处理过程，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；

针对M个源语言文档、N个目标语言文档，进行词性还原、分词、去停用词预处理，得到源语言文档集合D_S＝{d_m|1≤m≤M}、目标语言文档集合D_T＝{d_n|1≤n≤N}、源语言词汇集合W_S＝{w_a|1≤a≤A}、目标语言词汇集合W_T＝{w_b|1≤b≤B}，其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数；m、n、a、b为相应集合中的某一元素的标号，其均为正整数；

12)分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系；

13)迭代增强计算双语文档对和双语词汇对的权重；

14)选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典；双语文档对的权重越大则不同语言文档的相关性越强，选择权重最大的双语文档对构成可比语料；双语词汇对的权重越大则不同语言词汇的相关性越强，选择权重最大的双语词汇对构成双语词典。

2.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的构建源语言文档-目标语言文档关系包括以下步骤：

21)对源语言文档集合D_S和目标语言文档集合D_T构建源语言文档-目标语言文档的关系R-DD，对D_S和D_T中任意源语言文档d_m和目标语言文档d_n构成双语文档对；

22)通过d_m和d_n构成的双语文档对利用词汇重合度计算双语文档对x_i的权重其计算公式如下：

Rxi=Psim(dm,dn)=2×countTrans(wdm,wdn)count(wdm)+count(wdn),]]>