[发明专利]选择用于文本分割的语言的方法和系统有效
申请号: | 200580041137.0 | 申请日: | 2005-09-28 |
公开(公告)号: | CN101095138A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 杰拉德·以色列·埃尔巴兹;雅各布·L·曼德尔森 | 申请(专利权)人: | 谷歌公司;杰拉德·以色列·埃尔巴兹;雅各布·L·曼德尔森 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 王玮 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 选择 用于 文本 分割 语言 方法 系统 | ||
技术领域
本发明涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。
背景技术
已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词的分隔符或其它标志(token)的、由字符串组成的文本时,进行文本处理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段(token)。分割段可以是单词、首字母缩写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。
发明内容
本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割结果,并从该字符串确定与第二备选语言相关联的第二分割结果;为第一分割结果确定第一出现频率,和为第二分割结果确定第二出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的语言。
所提到的该示例性实施例并不限制或限定本发明,而是提供了有助于理解本发明实施例的示例。在具体实施方式中对示例性实施例进行了讨论,并提供了对本发明进一步的描述。通过核对说明书,可以进一步理解本发明的各个实施例所提供的优点。
附图说明
当参照附图阅读以下具体实施方式时,可以更好地理解本发明的这些和其它特征、方面和优点,其中:
图1示出了根据本发明一个实施例的系统示意图;以及
图2示出了由本发明执行的方法的一个实施例的流程图。
具体实施方式
引言
本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明具有多个实施例。通过引言和示例,本发明的一个示例性实施例提供了通过为字符串选择正确的语言,来改进将诸如域名之类的字符串分割为多个分割段或单词的方法。可以基于各种信号,例如,与该字符串相关联的语言、与用户相关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域,来选择用于该字符串的多种潜在或备选语言。可以使用每种备选语言将字符串分割为许多分割结果。每个分割结果可以是单词或其它分割段的特定组合。例如,可以针对英语语言将字符串“usedrugs”分割为以下分割结果:“used rugs”,“use drugs”,“us edrugs”等。根据针对每种备选语言的分割结果的数目,可以根据包含可行的分割后结果的可行语言中的文档或搜索疑问的数目来识别可行的分割结果和可行的语言。
例如,可以为每种备选语言选择成为最可行分割结果的可能性最高的分割结果。搜索引擎可以确定包含所选择的分割结果的文档或搜索疑问的数目,并且可以为每种备选语言的每个所选分割结果都这样做。在一个实施例中,可以将在特定语言的文档或搜索疑问中以出现频率最大分割结果识别为最可行的分割结果。可以将与最可行的分割结果相关联的语言识别为最可行的语言。用于确定备选语言的语言信号也可以用于选择可行的语言。可行的分割结果和可行的语言可以被用于各种功能,包括基于语言和结果选择广告。
给出该引言以将读者引导至该申请的一般技术主题。这并不意味着将本发明限制于该技术主题。以下对示例性实施例进行描述。
系统架构
可以构造根据本发明的各种系统。图1是示出了可以在其中执行本发明示例性实施例的示例性系统的示意图。本发明同样可以操作并体现于其它系统。
现在参照附图,在所有多个附图中,类似的数字指示类似的单元,图1是示出了实施本发明实施例的示例性环境的示意图。图1中所示的系统100包括通过网络106与服务器设备104和服务器设备150通信的多个客户机设备102a-n。在一个实施例中,所示的网络106包括因特网。在其它实施例中,可以使用诸如内联网、WAN或LAN之类的其它网络。此外,根据本发明的方法可以在单个计算机内工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司;杰拉德·以色列·埃尔巴兹;雅各布·L·曼德尔森,未经谷歌公司;杰拉德·以色列·埃尔巴兹;雅各布·L·曼德尔森许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580041137.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:探针头阵列
- 下一篇:密封部件,减压容器及其密封机构、制造方法与减压装置