[发明专利]一种交互式抽取可比语料与双语词典的方法及其装置在审
申请号: | 201410830446.7 | 申请日: | 2014-12-25 |
公开(公告)号: | CN104572634A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 朱泽德;王绍祺;李淼;张健;陈雷;杨振新;卫林钰;曾新华;郑守国;李华龙 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 合肥天明专利事务所 34115 | 代理人: | 张祥骞;奚华保 |
地址: | 230031 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互式 抽取 可比 语料 双语 词典 方法 及其 装置 | ||
技术领域
本发明涉及跨语言信息处理技术领域,具体来说是一种交互式抽取可比语料与双语词典的方法及其装置。
背景技术
双语可比语料和双语词典是两种不同粒度的跨语言资源,对统计机器翻译和跨语言信息检索等跨语言信息处理具有重要的价值。可比语料由语言不同、内容相似但非互译的文档对构成,从中挖掘双语互译词汇、双语命名实体、平行句对等不同粒度的翻译等价对,可有效解决双语词典编纂中面临的新词和旧词新意等问题,双语词典等更细粒度的双语知识可直接用于跨语言信息处理。
可比语料的获取主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面,采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性。在跨语言检索方面,将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档,构成可比语料库。在维基百科方面,以维基百科类别信息作为主题约束,以语言链接进行双语映射采集相应源语言和目标语言的百科页面。
双语词典的挖掘主要通过词汇共现、上下文信息等方法来实现。在词汇共现方面,通过建立源语言文本和目标语言文本的共现矩阵,计算矩阵相似度来进行翻译等价对的抽取;在上下文信息方面,计算两个双语词的上下文向量之间的相似性来选取最大可能的对应词汇。
然而,现有的挖掘这两类资源的方法都是通过先获取可比语料,再从可比语料抽取双语词典。这些方法分步将两个密切相关的任务分离,无法通过获取的双语词典来为不同语言文档的相似度计算提供支持,也无法区分相似度差异的可比语料来为不同语言词汇的相似度计算提供支持。如何避免上述两点不足实现同步、准确地抽取已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷,提供一种交互式抽取可比语料与双语词典的方法及其装置来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种交互式抽取可比语料与双语词典的方法,包括以下步骤:
预处理过程,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
针对M个源语言文档、N个目标语言文档,进行词性还原、分词、去停用词预处理,得到源语言文档集合DS={dm|1≤m≤M}、目标语言文档集合DT={dn|1≤n≤N}、源语言词汇集合WS={wa|1≤a≤A}、目标语言词汇集合WT={wb|1≤b≤B},其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数;m、n、a、b为相应集合中的某一元素的标号,其均为正整数;
分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系;
迭代增强计算双语文档对和双语词汇对的权重;
选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典;双语文档对的权重越大则不同语言文档的相关性越强,选择权重最大的双语文档对构成可比语料;双语词汇对的权重越大则不同语言词汇的相关性越强,选择权重最大的双语词汇对构成双语词典。
所述的构建源语言文档-目标语言文档关系包括以下步骤:
对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD,对DS和DT中任意源语言文档dm和目标语言文档dn构成双语文档对;
通过dm和dn构成的双语文档对利用词汇重合度计算双语文档对xi的权重其计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院;,未经中国科学院合肥物质科学研究院;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410830446.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键字搜索方法和装置
- 下一篇:生成单语解析模型的方法和装置以及语言转换装置