[发明专利]多语言文本中的语言识别有效
| 申请号: | 201110311472.5 | 申请日: | 2011-10-14 |
| 公开(公告)号: | CN102402584A | 公开(公告)日: | 2012-04-04 |
| 发明(设计)人: | 李康;S.A.克罗德;I.G.约翰森;S.阿罗尼乔 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘鹏;丁永凡 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 文本 中的 识别 | ||
背景技术
确定文档(例如,网页)中存在的多种语言的哪一种语言是主要语言。这种文档被称为多语言通常而言是有用的或者有必要的。该确定有助于识别网页与特定查询之间的关联性。自动语言检测系统的任务是用于识别组成文档的主要语言(以及额外的语言,如果存在的话)。搜索引擎将文档的语言组成用作为一种确定文档与查询的关联程度的因素。一些现有的系统被设计为除了主要语言之外,还输出按照可信度排列的语言列表,但是它们可能不能够指定文档中实际存在哪些语言。
这些限制降低了对多语言文档中语言检测的有效性,因为它们能引起不正确的断词。断词器通过基于语言的语言规则确定哪里存在词边界以识别给定语言中的各个词。特定于语言的断词器使得产生的术语对于该语言而言更加精确。在多语言文档中,确定主要语言,然后通常将主要语言的断词器应用到整个文档。这导致对于文档的大多非主要语言部分产生不正确的断词。
常规地,在确定文档的主要语言时等同对待文档的所有部分,这导致其他的限制。然而,实际上,文档的某些部分与文档的其他部分相比更加重要或者具有较多的信息。作为一个实例,对于文档整体而言,版权声明通常与标题相比具有更少的信息。向文档的这些不同部分给予相同的权重可以导致对主要语言进行不正确的分配,特别是在较短的文本的时候。
发明内容
通过以下的权利要求来限定本发明的实施例。提供各种实施例的高度概述以引入系统、方法和介质的发明内容部分,所述系统、方法和介质在以下具体实施方式部分中进行进一步的描述。该发明内容既不意在用于识别所要求保护的主题的关键特征或必要特征,也不意在用孤立地作为帮助来确定所要求保护的主题的范围。
描述用于识别多语言文本中的语言的系统、方法和计算机可读存储介质。所述系统、方法和计算机可读存储介质用于将文档译码成通用表示代码以用于更简单的标记操作,并且用于将纯文本内容断开为各部分。所述部分被识别并被分配权重,其中具有较多信息的部分被给予更高的权重,具有较少信息的部分被给予较小的权重。另外,确定每一部分的语言,以使得能够使用不同的断词器以对以不同语言书写的文本进行标记化。
将文档断开为各部分并且将各部分分类成不同的类型能够较好地确定文档的主要语言。这通过使用部分中的每一词、短语、或字符n元语法模型(n-gram)的语言似然性评分来实现。在此将n元语法模型定义为任意短序列的字符,诸如1-5个字符。单个词可以包括多个n元语法模型。为每一种语言组合部分内的语言似然性评分。然后将组合的部分评分相加到一起以获得每一种语言的整个文档评分。这产生每一种语言的文档评分,其能够被排序以确定文档的主要语言。通过利用部分断开和分类也能够识别文档中语言的组合以及它们的边界。这也增加了一种改进的多语言文档的索引系统。
附图说明
以下参考作为参考结合于此的附图,详细描述本发明的说明性实施例,附图中:
图1是图示根据本发明实施例所使用的典型计算机操作系统的方块图;
图2是图示根据本发明实施例所使用的用于识别多语言文本的系统的方块图;
图3是图示根据本发明实施例所使用的不同部分权重的表格;
图4是根据本发明实施例所使用的多语言网络搜索文档;
图5是根据本发明实施例所使用的网络搜索文档的部分断开和分类表格;
图6是根据本发明实施例所使用的计算的图示;
图7是根据本发明实施例所使用的计算的图示;
图8是根据本发明实施例所使用的用于识别多语言文本的方法流程图;以及
图9是根据本发明实施例所使用的用于选择主要语言的方法流程图。
具体实施方式
本发明的实施例提供了用于识别多语言文本文档中的语言的系统、方法和计算机可读存储介质。该详细的说明书和所附的权利要求满足适当的法定要求。
在此可以使用术语“步骤”、“块”等等意味着所使用的方法的不同动作,但是这些术语并不应被解释为暗含着任意特殊的顺序,除非明确描述了各个步骤、块等等的顺序。同样,可以在此使用术语“模块”等等意味着所使用的系统的不同部件,但是该术语并不应被解释为暗含着任意特殊的顺序,除非明确描述了各个模块等的顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110311472.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗雷击及过短路型的熔断电阻器
- 下一篇:一种谐振腔





