[发明专利]从非结构化资源挖掘短语对有效

专利信息
申请号: 201080023190.9 申请日: 2010-05-14
公开(公告)号: CN102439596A 公开(公告)日: 2012-05-02
发明(设计)人: W·B·多兰;C·J·布罗克特;J·J·卡斯蒂略;L·H·范德温德 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06F17/26
代理公司: 上海专利商标事务所有限公司 31100 代理人: 蔡悦
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结构 资源 挖掘 短语
【说明书】:

背景技术

近年来,人们对统计机器翻译技术有相当大的兴趣。此技术通过首先建立训练集来操作。传统上,训练集提供并行的文本语料库,如第一语言的文本的正文以及第二语言的文本的对应的正文。训练模块使用统计技术来确定第一文本正文最有可能映射到第二文本正文的方式。此分析导致生成翻译模型。在解码阶段,翻译模型可以被用来将第一语言的文本的实例映射到第二语言的对应的文本实例。

统计翻译模型的有效性常常取决于用于产生翻译模型的训练集的稳健性。然而,提供高质量训练集是具有挑战性的任务。部分地,这是因为训练模块通常要求大量的训练数据,但是,只有少量的预先建立的并行语料库类型的资源用于提供这样的信息。在传统的情况下,可以通过手动生成并行文本,例如,通过使用人类翻译者,来获取训练集。然而,手动生成这些文本是极其耗时的任务。

存在许多以比较自动化的方式标识并行文本的技术。例如,考虑一个网站以多种不同的语言传达相同信息的情况,信息的每一个版本都与单独的网络地址(例如,单独的URL)相关联。在一种技术中,检索模块可以检查搜索索引以试图标识这些并行文档,例如,基于URL内的特征信息。然而,此技术可以提供对相对数量有限的并行文本的访问。此外,此方法还可以取决于在很多情况下可能不成立的假设。

上面的示例已经被框入在两个不同的自然语言之间转换文本的模型的上下文中。还提出了单语种模型。这样的模型试图改述输入文本以与输入文本相同的语言产生输出文本。例如,在一种应用中,这种类型的模型可用于修改用户的搜索查询,例如,通过标识表达搜索查询的额外的方式。

单语种模型具有上面所提及的相同缺点。实际上,查找相同语言内的预先存在的并行语料库是特别具有挑战性的。即,在双语上下文中,有预先存在的生成不同的语言的并行文本以适应不同的读者的本国语言的需要。以相同语言生成文本的并行版本的需要则有限得多。

尽管如此,这样的单语种信息确实少量地存在。例如,常规的同义词库提供关于相同语言的带有类似的含义的单词的信息。在另一种情况下,一些书已经被不同的翻译者翻译成相同语言。不同的翻译可以充当并行的单语种语料库。然而,这种类型的并行信息太专业化,以至于难以有效地用于比较一般的上下文中。此外,如前所述,只有相对较小的量的这种类型的信息。

已经作出了自动标识涉及相同主题的单语种文档的正文,然后挖掘这些文档以发现并行句子的存在的努力。然而,在某些情况下,这些方法依赖于可能会限制它们的有效性和通用性的上下文特定的假设。除这些困难之外,文本可以以多种多样的方式被改述;因此,标识单语种上下文中的并行性潜在地是比标识双语上下文中的相关的文本更加复杂的任务。

发明内容

此处描述了从非结构化资源中精选出结构化训练集的挖掘系统。即,非结构化资源可以在重复的内容以及替换类型的内容方面隐而不见地丰富。重复的内容是指非结构化资源包括文本的相同实例的许多重复。替换类型的内容是指非结构化资源包括文本的在形式方面不同但是表达类似的语义内容的许多实例。挖掘系统展示并提取非结构化资源的这些特征,并通过该过程,将原始非结构化内容转换为用于训练翻译模型的结构化内容。在一种情况下,非结构化资源可以对应于可通过网络访问的资源项的储存库(例如,因特网可访问的资源项)。

根据一个说明性实现,挖掘系统通过向检索模块提交查询来操作。检索模块使用查询来在非结构化资源内执行搜索,之后,它提供结果项。结果项可以对应于概括了在非结构化资源中所提供的相关联的资源项的文本段。挖掘系统通过过滤结果项并标识相应的结果项对来产生结构化训练集。训练系统可以使用该训练集来产生统计翻译模型。

根据一个说明性方面,挖掘系统可以只基于查询的提交来标识结果项,无需预先标识针对相同主题的资源项的组。换言之,挖掘系统可以取将资源项的主题(例如,文档)作为整体的不可知的方法;挖掘系统在子文档片断级别展示非结构化资源内的结构。

根据另一个说明性方面,训练集可包括对应于句子段的项。换言之,训练系统不依赖于句子级别的并行性的标识和利用(尽管训练系统也可以成功地处理包括完整的句子的训练集)。

根据另一个说明性方面,翻译模型可以用于单语种上下文中,以在单一语言内将输入短语转换为输出短语,其中,输入短语和输出短语具有类似的语义内容,但是具有不同形式的表达。换言之,翻译模型可用于提供输入短语的释义版本。翻译模型也可以用于双语上下文中,以将第一语言的输入短语翻译为第二语言的输出短语。

根据另一个说明性方面,描述了翻译模型的各种应用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080023190.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top