[发明专利]通过分析用户的自校正搜索行为识别搜索字符串的备选拼写有效
申请号: | 200680037981.0 | 申请日: | 2006-07-20 |
公开(公告)号: | CN101288046A | 公开(公告)日: | 2008-10-15 |
发明(设计)人: | 埃里克·R·瓦顿;罗纳德·M·惠特曼;兰德尔·M·亨尼 | 申请(专利权)人: | 亚马逊技术有限公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00;G06F17/00 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 王波波 |
地址: | 美国内*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 分析 用户 校正 搜索 行为 识别 字符串 备选 拼写 | ||
技术领域
本发明涉及拼写校正算法,包括用于识别提交给搜索引擎的搜索字符串的备选拼写的方法。
背景技术
许多万维网站点和在线服务提供搜索引擎系统(“搜索引擎”),用于帮助用户定位感兴趣的项目。例如,许多网站提供因特网搜索引擎,用于定位网页和其他类型的因特网内容,此外在线服务(例如LexisNexis和Westlaw)提供用于定位文章、法庭意见以及其他类型的公开信息的搜索引擎。此外,在线零售商通常提供搜索引擎用于帮助用户定位以电子目录表示的产品或者其他类型的项目。
为了使用基于文本的搜索引擎来执行搜索,用户提交包含搜索字符串或由搜索字符串组成的搜索查询。该搜索字符串可以由单个搜索词(例如,“Olympics”)或多个搜索词(例如,“Olympic marathon”)组成。其他类型的元素(例如搜索领域标识符和逻辑操作符)也可以包括在搜索字符串中。搜索引擎的查询服务器处理搜索请求,以识别匹配该搜索字符串的所有项目。查询服务器程序所识别的项目集合(网页、新闻文章和产品等)被称为“搜索结果集合”,并作为定位项目的列表呈现给用户。在基于Web的实现中,搜索结果集合典型地作为定位项目的超文本列表呈现给用户。
当搜索引擎的用户由于误打字或忘记一个词而拼错了搜索字符串中的那个词时,拼错的词通常无法匹配搜索所包含的数据库词中的任意一个词,或者匹配到用户不想要的数据库词。因而,搜索引擎可能返回无价值的(空的)搜索结果,或者包含很少的(如果有的话)与用户目标相关的项目的搜索结果集合。为克服这个问题,一些搜索引擎建议与用户输入的搜索字符串在拼写上类似的备选字符串。然而,这些备选搜索字符串通常不代表用户的意愿,或相反,对用户没有帮助。
发明内容
本发明提供一种计算机实现的过程,用于识别可能对用户有帮助的搜索字符串的拼写变化,例如从STRING1到STRING2的变化。该过程考虑用户所进行的自校正的拼写变化,通过对大量搜索引擎用户的搜索历史进行程序分析来检测该拼写变化。作为结果,所识别的拼写变化往往对校正或另外地修改用户所提交的搜索字符串非常有用。
在一个实施例中,通过分析单个用户提交的搜索字符串的序列,来检测拼写变化事件。例如,如果用户提交了第一搜索字符串,并在随后提交了第二搜索字符串,假如第一和第二搜索字符串在拼写上足够地相似,则这一对提交可以被认为是拼写变化事件。也可以评估这两次提交之间的时间长短和/或用户在这两次提交之间执行的动作(如果存在的话),以确定这一对提交是否或在何种程度上应当被认为是预期的拼写校正,从而被加以考虑。
通过该过程所检测的拼写变化事件是针对大量用户汇集起来的,并在汇集的基础上对该拼写变化事件进行程序分析,以识别或预测可能对用户有用的拼写变化。例如,该过程可以预测搜索STRING1的用户很可能通过搜索在拼写上与STRING1相似的STRING2获益。例如,这种预测考虑下面的一个或更多:(1)搜索STRING1的用户其后是否相对频繁地搜索STRING2;(2)从STRING1到STRING2的拼写变化是否明显地比从STRING2到STRING1的拼写变化更加频繁发生。也可以另外或备选地考虑其他类型的用户动作,例如反映特定搜索查询是否成功的动作。
被识别为潜在有用的拼写变化可以用于很多方面,以帮助用户定位项目。例如,当用户提交搜索字符串来实施搜索时,可以向用户建议在拼写上相似的一个或更多个备选字符串。备选地,所提交的搜索字符串可以自动地用备选字符串替换,或者查询可以通过对原始字符串和备选字符串进行逻辑“或”来自动扩展。
本发明还可用于促进针对任何多种不同类型的项目的搜索,包括但不限于:网站、网页、其他类型的文档、新闻文章、杂志文章、呈现在电子目录、拍卖和交易列表中的产品、公司内联网上的文档、人物、图像、音乐文件、播客(podcast)、视频片段、博客和电视表演。另外,本发明可以实现为支持基于文本的搜索的任何类型的交互系统,包括但不限于:网站系统、在线服务网络、交互电视系统和支持通过发出单个字符声音的搜索的系统。
本发明的拼写变化分析方法还可用于通过文档拼写检查程序来分析用户作出的拼写变化。此外,被识别为有用的拼写变化可用于帮助用户校正文档中的拼写错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术有限公司,未经亚马逊技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680037981.0/2.html,转载请声明来源钻瓜专利网。