[发明专利]从非结构化资源挖掘短语对有效

申请号：	201080023190.9	申请日：	2010-05-14
公开（公告）号：	CN102439596A	公开（公告）日：	2012-05-02
发明（设计）人：	W·B·多兰;C·J·布罗克特;J·J·卡斯蒂略;L·H·范德温德	申请（专利权）人：	微软公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06F17/26
代理公司：	上海专利商标事务所有限公司 31100	代理人：	蔡悦
地址：	美国华***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结构资源挖掘短语
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

背景技术

近年来，人们对统计机器翻译技术有相当大的兴趣。此技术通过首先建立训练集来操作。传统上，训练集提供并行的文本语料库，如第一语言的文本的正文以及第二语言的文本的对应的正文。训练模块使用统计技术来确定第一文本正文最有可能映射到第二文本正文的方式。此分析导致生成翻译模型。在解码阶段，翻译模型可以被用来将第一语言的文本的实例映射到第二语言的对应的文本实例。

统计翻译模型的有效性常常取决于用于产生翻译模型的训练集的稳健性。然而，提供高质量训练集是具有挑战性的任务。部分地，这是因为训练模块通常要求大量的训练数据，但是，只有少量的预先建立的并行语料库类型的资源用于提供这样的信息。在传统的情况下，可以通过手动生成并行文本，例如，通过使用人类翻译者，来获取训练集。然而，手动生成这些文本是极其耗时的任务。

存在许多以比较自动化的方式标识并行文本的技术。例如，考虑一个网站以多种不同的语言传达相同信息的情况，信息的每一个版本都与单独的网络地址(例如，单独的URL)相关联。在一种技术中，检索模块可以检查搜索索引以试图标识这些并行文档，例如，基于URL内的特征信息。然而，此技术可以提供对相对数量有限的并行文本的访问。此外，此方法还可以取决于在很多情况下可能不成立的假设。

上面的示例已经被框入在两个不同的自然语言之间转换文本的模型的上下文中。还提出了单语种模型。这样的模型试图改述输入文本以与输入文本相同的语言产生输出文本。例如，在一种应用中，这种类型的模型可用于修改用户的搜索查询，例如，通过标识表达搜索查询的额外的方式。

单语种模型具有上面所提及的相同缺点。实际上，查找相同语言内的预先存在的并行语料库是特别具有挑战性的。即，在双语上下文中，有预先存在的生成不同的语言的并行文本以适应不同的读者的本国语言的需要。以相同语言生成文本的并行版本的需要则有限得多。

尽管如此，这样的单语种信息确实少量地存在。例如，常规的同义词库提供关于相同语言的带有类似的含义的单词的信息。在另一种情况下，一些书已经被不同的翻译者翻译成相同语言。不同的翻译可以充当并行的单语种语料库。然而，这种类型的并行信息太专业化，以至于难以有效地用于比较一般的上下文中。此外，如前所述，只有相对较小的量的这种类型的信息。

已经作出了自动标识涉及相同主题的单语种文档的正文，然后挖掘这些文档以发现并行句子的存在的努力。然而，在某些情况下，这些方法依赖于可能会限制它们的有效性和通用性的上下文特定的假设。除这些困难之外，文本可以以多种多样的方式被改述；因此，标识单语种上下文中的并行性潜在地是比标识双语上下文中的相关的文本更加复杂的任务。

发明内容

此处描述了从非结构化资源中精选出结构化训练集的挖掘系统。即，非结构化资源可以在重复的内容以及替换类型的内容方面隐而不见地丰富。重复的内容是指非结构化资源包括文本的相同实例的许多重复。替换类型的内容是指非结构化资源包括文本的在形式方面不同但是表达类似的语义内容的许多实例。挖掘系统展示并提取非结构化资源的这些特征，并通过该过程，将原始非结构化内容转换为用于训练翻译模型的结构化内容。在一种情况下，非结构化资源可以对应于可通过网络访问的资源项的储存库(例如，因特网可访问的资源项)。

根据一个说明性实现，挖掘系统通过向检索模块提交查询来操作。检索模块使用查询来在非结构化资源内执行搜索，之后，它提供结果项。结果项可以对应于概括了在非结构化资源中所提供的相关联的资源项的文本段。挖掘系统通过过滤结果项并标识相应的结果项对来产生结构化训练集。训练系统可以使用该训练集来产生统计翻译模型。

根据一个说明性方面，挖掘系统可以只基于查询的提交来标识结果项，无需预先标识针对相同主题的资源项的组。换言之，挖掘系统可以取将资源项的主题(例如，文档)作为整体的不可知的方法；挖掘系统在子文档片断级别展示非结构化资源内的结构。

根据另一个说明性方面，训练集可包括对应于句子段的项。换言之，训练系统不依赖于句子级别的并行性的标识和利用(尽管训练系统也可以成功地处理包括完整的句子的训练集)。

根据另一个说明性方面，翻译模型可以用于单语种上下文中，以在单一语言内将输入短语转换为输出短语，其中，输入短语和输出短语具有类似的语义内容，但是具有不同形式的表达。换言之，翻译模型可用于提供输入短语的释义版本。翻译模型也可以用于双语上下文中，以将第一语言的输入短语翻译为第二语言的输出短语。

根据另一个说明性方面，描述了翻译模型的各种应用。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软公司，未经微软公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201080023190.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种甘蓝型油菜低亚麻酸分子标记及其制备方法与应用
下一篇：快速计算机启动

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]从非结构化资源挖掘短语对有效

专利文献下载