[发明专利]选择用于文本分割的语言的方法和系统有效
申请号: | 201210288916.2 | 申请日: | 2005-09-28 |
公开(公告)号: | CN102831107A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 杰拉德·以色列·埃尔巴兹;雅各布·L·曼德尔森 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 选择 用于 文本 分割 语言 方法 系统 | ||
1.一种计算机实现的方法,包括:
在计算设备处接收字符串;
识别针对所述字符串的至少第一备选语言和第二备选语言;
通过计算设备将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;
使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;
确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及
通过计算设备至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
2.根据权利要求1所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个项目。
3.根据权利要求1所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
4.根据权利要求1所述的计算机实现的方法,其中确定第一出现频率包括:
将第一分割结果作为搜索询问发送到搜索引擎;以及
响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
5.根据权利要求1所述的计算机实现的方法,还包括至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
6.一种计算机系统,包括:
一个或多个计算机服务器设备,用于接收字符串;
所述一个或多个计算机服务器设备的语言处理器,用于识别针对所述字符串的至少第一备选语言和第二备选语言;
所述一个或多个计算机服务器设备的分割处理器,用于将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;以及
所述一个或多个计算机服务器设备的频率处理器,用于:
使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;
确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及
至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
7.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个项目。
8.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
9.根据权利要求6所述的计算机系统,其中频率处理器被配置为通过执行以下功能来确定第一出现频率:
将第一分割结果作为搜索询问发送到搜索引擎;以及
响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
10.根据权利要求6所述的计算机系统,其中频率处理器还被配置为至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210288916.2/1.html,转载请声明来源钻瓜专利网。