[发明专利]搜索系统和相应方法有效
| 申请号: | 201380068827.X | 申请日: | 2013-12-27 |
| 公开(公告)号: | CN104885081A | 公开(公告)日: | 2015-09-02 |
| 发明(设计)人: | 本杰明·麦德洛克;大卫·保罗·威廉姆斯 | 申请(专利权)人: | 触摸式有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营;栗涛 |
| 地址: | 英国*** | 国省代码: | 英国;GB |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 系统 相应 方法 | ||
本发明提供一种搜索系统,其包括在与一段内容相关联的文本上训练的统计模型。与该段内容相关联的所述文本是从多个不同的数据源中提取的。所述系统用于接收文本输入,并生成该段内容与给定的文本输入之间存在相关性的似然性估计。本发明还提供了相应的方法。
技术领域
本发明涉及电子搜索系统,例如电子搜索引擎,以及用于电子搜索的相应的方法。
技术背景
传统上,搜索引擎已被设计成返回相关文件(例如网页)来响应用户查询。要做到这一点,搜索引擎将用户查询(包括关键字)与分配给特定网页的索引项或标签进行比较。如果用户输入的关键字和网页索引项匹配,则该搜索引擎会返回与用户查询相关的网页。
然而,该方法存在一些缺点。为了使用传统搜索引擎,用户必须将他的搜索查询提炼成若干相关的关键字,或短问题,并且,在一般情况下,该搜索的结果高度取决于用户对于关键字的选择。传统搜索引擎并不能处理大量输入文本或自然语言文本。此外,传统搜索引擎局限于返回一个或多个特定文件作为结果。
此外,如果与特定网页相关联的索引项集不包括其中的一个关键字,那么传统搜索引擎可以会错误地把网页作为不相关的网页丢弃。
发明内容
本发明提供可以解决传统搜索引擎的弊端的一些搜索系统和搜索方法。
本发明涉及概率驱动搜索系统,该系统可以考虑到一系列证据源,来将相关的内容提供给用户。基于明确的搜索查询或某些其它文本输入,本发明的系统和方法使用统计模型来将相关的内容建议提供给用户,所述统计模型由与可识别的多段内容相关联的数据集推导出。
本发明的第一个方面在于提供了一种搜索系统。所述搜索系统用于:接收文本输入,针对多段内容中的每一段生成该段内容与给定的文本输入之间存在相关性的似然性的估计,并选择性地输出作为内容建议的一段或多段最相关的内容。
所述搜索系统的优选实施例包括统计模型。所述统计模型在与一段内容相关联的文本上进行训练,其中所述与一段内容相关联的文本是从多个不同的数据源中提取出的。该系统用于:接收文本输入,并通过统计模型生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
在一个优选实施例中,统计模型在一些特征上训练,这些特征是从与该段内容相关联的文本中提取出的。其中所述系统还包括:特征提取机构,其用于从文本输入中提取多个(一些)特征;以及关联机构,其用于以所述文本输入的各特征查询统计模型,从而生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
优选地,所述系统包括在与多段内容相关联的文本上训练的多个统计模型。所述系统用于:通过与多段内容中的每一段相关联的统计模型,生成所述多段内容中的各段内容与给定的文本输入之间存在相关性的似然性的估计。
所述系统可用于根据相关性将所述多段内容排序,并确定一段或多段最相关的内容。
所述系统可用于输出所述一段或多段最相关的内容中的各段内容的至少一个代表。
所述系统可用于输出一段或多段最相关的内容。
该段内容可以是特定的实体或与特定实体相关联的内容。
所述系统可用于输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个代表。
所述系统可以包括在与一段或多段内容有关的非文本数据上训练的统计模型。优选地,所述系统用于接收非文本证据,并通过在非文本数据上训练的统计模型,生成该段内容与给定的非文本证据之间存在相关性的似然性估计。
所述系统可以包括用于对文本输入进行分类的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于触摸式有限公司,未经触摸式有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380068827.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息存储和检索的基于图形的系统和方法
- 下一篇:用于生成数字版本的系统和方法





