[发明专利]为搜索词分配指标权重无效
申请号: | 200980150289.2 | 申请日: | 2009-12-14 |
公开(公告)号: | CN102246169A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 刘宸 | 申请(专利权)人: | 摩托罗拉移动公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 刘光明;穆德骏 |
地址: | 美国伊*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 分配 指标 权重 | ||
技术领域
本申请主要涉及计算机为媒介的搜索工具,特别涉及为文档中的搜索词分配指标权重。
背景技术
在通常的搜索情形中,用户键入搜索字符串。该字符串提交给搜索引擎分析。在分析过程中,字符串中许多词而不是全部词都变为“搜索词”(例如“a”和“the”没有变为搜索词并且通常会被忽略)。然后搜索引擎查找包含该搜索词的适当的文档并且将那些适当的文档的列表示出为“命中”以用于用户浏览。
给出一个搜索词,查找包含该搜索词的合适的文档是一个精密而复杂的过程。与简单地拉出所有包含该搜索词的文档不同,智能搜索引擎首先预处理在其集合中的所有文档。对每篇文档,搜索引擎准备文档中包含和文档中重要的可能搜索词的列表。关于文档中的词的重要性(称为其的“指标权重”),有很多已知的度量。一个常见的度量为“词频率-逆向文档频率”(“TF-IDF”)。简单地,该指标权重与词在文档中出现的次数成比例并且与包含该词的集合中文档的数目成反比。例如,词“这个”可能在文档中出现多次。然而,“这个”也出现在集合中几乎每篇文档中,而因此它的TF-IDF非常低。另一方面,因为集合可能只有几篇包含词“鲸鱼”的文档,则词“鲸鱼”在其中反复出现的文档对于鲸鱼有些论述,因此,对于该文档,“鲸鱼”具有高的TF-IDF。
因此,智能搜索引擎没有简单地列出包含用户的搜索词的所有文档,而是仅仅列出那些包含具有相对高的TF-IDF(或者搜索引擎使用的任何其他的词重要性度量)的那些文档。以这种方式,智能搜索引擎将最有可能满足用户需要的那些文档放在接近返回的文档列表的顶部。
然而,当用户是说出搜索字符串而不是键入时该情形并不有效。在通常的情形中,用户的小型个人通信装置(比如蜂窝电话或者个人数字助理)没有足够空间用于全键盘。相反,具有限制性的键盘,该键盘可能具有很多很小的按键,这些按键对于触摸打字来说太小;或者键盘具有几个按键,每个按键代表若干字母或者符号。用户发现限制性键盘不适合用于输入复杂的搜索查询,因此用户转向基于语音的搜索。
在这里,用户说出搜索查询。语音至文本引擎将说出的查询转换为文本。获得的文本查询然后如上所述地由标准的基于文本的搜索引擎处理。
虽然该处理适用于大多数情况,但是基于语音的搜索产生了新的问题。特别是,公知技术是单纯地基于文档的文本方面来给文档中的词分配指标权重的。
发明内容
本发明针对解决以上及其他考虑,可以参照说明书、附图和权利要求理解本发明。根据本发明的方面,文档中的潜在搜索词被分配有基于词的文本和声学两方面的指标权重。
在一实施例中,传统的基于文本的权重被分配给潜在的搜索词。该权重可以是TF-IDF、TF-DV(词频率-辨别值)或者是任何其他基于文本的权重。然后,对于同一词计算发音重音权重。基于文本的权重和发音重音权重被算术地组合成用于该词的最终的指标权重。当输入基于语音的搜索字符串时,该组合的指标权重用于确定每篇文档中每个搜索词的重要性。
正因为存在很多已知的用于计算基于文本的指标权重的可能性,因此预期用于计算发音重音的几种可能性。在一些实施例中,对于文档中的词的对,基于音位间距离计算词间发音距离。能够使用数据驱动和基于语音学技术来计算音位间距离。下面将描述该过程的详细情况和其他可能性。
附图说明
虽然所附权利要求书特别地阐明了本发明的特征,但是可以通过下面的结合附图的详细说明更好地理解本发明及其目的和优点:
图1是可以实施本发明的代表性环境的概述;
图2是给搜索词分配指标权重的示例方法的流程图;
图3是示出可以如何计算指标权重的数据流图;
图4a和4b是根据本发明计算的指标权重的性能和先前技术的指标权重的性能的比较的试验结果的表格。
具体实施方式
参考附图,其中相同的附图标记表示相同的元件,本发明被示出为在适合的环境中实施。下面的描述基于本发明的实施例并且不应该视为在这里没有详细描述的替代实施例方面限制了本发明。
在图1中,用户102想进行搜索。不管什么原因,用户102选择说出他的搜索查询至他的个人通信装置104而不是键入该搜索查询。用户102的语音输入被处理(在装置104上本地处理或者在远程搜索服务器106上处理)为文本查询。该文本查询被提交给搜索引擎(再一次说明:本地地或者远程地)。搜索结果在装置104的显示屏上展示给用户102。通信网络100使得装置104能够在适当的情况下访问该远程搜索服务器106,并且在用户102的指导下在搜索结果中取回“命中”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉移动公司,未经摩托罗拉移动公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980150289.2/2.html,转载请声明来源钻瓜专利网。