[发明专利]一种交互式抽取可比语料与双语词典的方法及其装置在审
申请号: | 201410830446.7 | 申请日: | 2014-12-25 |
公开(公告)号: | CN104572634A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 朱泽德;王绍祺;李淼;张健;陈雷;杨振新;卫林钰;曾新华;郑守国;李华龙 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 合肥天明专利事务所 34115 | 代理人: | 张祥骞;奚华保 |
地址: | 230031 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互式 抽取 可比 语料 双语 词典 方法 及其 装置 | ||
1.一种交互式抽取可比语料与双语词典的方法,其特征在于,包括以下步骤:
11)预处理过程,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
针对M个源语言文档、N个目标语言文档,进行词性还原、分词、去停用词预处理,得到源语言文档集合DS={dm|1≤m≤M}、目标语言文档集合DT={dn|1≤n≤N}、源语言词汇集合WS={wa|1≤a≤A}、目标语言词汇集合WT={wb|1≤b≤B},其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数;m、n、a、b为相应集合中的某一元素的标号,其均为正整数;
12)分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系;
13)迭代增强计算双语文档对和双语词汇对的权重;
14)选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典;双语文档对的权重越大则不同语言文档的相关性越强,选择权重最大的双语文档对构成可比语料;双语词汇对的权重越大则不同语言词汇的相关性越强,选择权重最大的双语词汇对构成双语词典。
2.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的构建源语言文档-目标语言文档关系包括以下步骤:
21)对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD,对DS和DT中任意源语言文档dm和目标语言文档dn构成双语文档对;
22)通过dm和dn构成的双语文档对利用词汇重合度计算双语文档对xi的权重其计算公式如下:
其中,为根据种子双语词典统计文档dm中词汇与文档dn中词汇为互译词汇对的数量,为文档dm中词汇数量,为文档dn中词汇数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院;,未经中国科学院合肥物质科学研究院;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410830446.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:关键字搜索方法和装置
- 下一篇:生成单语解析模型的方法和装置以及语言转换装置