[发明专利]用于信息检索的方法和设备在审
申请号: | 201310441159.2 | 申请日: | 2013-09-24 |
公开(公告)号: | CN104462146A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 郭杨;王丛宇 | 申请(专利权)人: | 北京千橡网景科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 100041 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 信息 检索 方法 设备 | ||
技术领域
本发明的实施方式涉及信息检索领域,具体地涉及一种用于信息检索的方法和设备。
背景技术
对于搜索引擎而言,现有提升其检索性能的重要方式之一是对倒排链进行剪枝。但是,剪枝存在一定的风险,因为如果相关性技术不够成熟的话,盲目剪枝可能导致检索结果的召回率非常低。
众所周知,第一代搜索引擎多采用大小索引的方式来提升其检索性能。具体而言,小索引里面存储有数量较少的精华文档,大索引则包含其它文档。在检索时,搜索引擎先检索小索引里面的精华文档并对这些精华文档进行精排算分;检索完小索引之后,搜索引擎在大索引里面对倒排链进行适当的剪枝。这种方式提高了检索速度,增加了召回文档的数量,既保证搜索引擎的检索性能又不影响检索结果。
第二代搜索引擎引入社交网站(SNS)信息,诸如用户的个人信息、历史行为分析数据、主动订阅数据等个性化数据。与第一代搜索引擎不同的是,第二代搜索引擎返回的检索结果是个性化的,即,每个用户的检索结果都不一样,而且同一用户在不同时期的检索结果也不尽相同。需要提供一种用于该搜索引擎的高效检索方法,以进一步提高融入用户社交网站信息的第二代搜索引擎的检索效率和检索性能。
发明内容
本发明的实施方式提供了一种用于信息检索的方法和设备,可以进一步提高融入用户社交网站信息的第二代搜索引擎的检索效率和检索性能。
根据本发明的实施方式的一个方面,提供一种用于信息检索的方法,该方法包括:建立包含实时数据的大索引;使用实时数据中的一部分数据更新用户的个性化数据;接收用户的检索请求;判断用户是否为登录用户;根据登录用户的ID查询小索引缓存中是否包含登录用户的个性化小索引;检索登录用户的个性化小索引,得到第一数量的检索结果;以及返回第一数量的检索结果中相关性分值最高的第二数量的检索结果。
进一步地,如果第一数量小于第三数量,则继续在大索引中检索得到第四数量的检索结果。进一步地,将第四数量的检索结果与第一数量的检索结果进行排序并且返回相关性分值最高的第二数量的检索结果。
进一步地,如果小索引缓存中不包含登录用户的个性化小索引或者个性化小索引已经过期,则收集登录用户的个性化数据,其中个性化数据包括登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。进一步地,使用个性化数据建立登录用户的个性化小索引;进一步地,将个性化小索引插入小索引缓存。
进一步地,如果用户不是登录用户,则仅检索大索引并且返回相关性分值最高的第二数量的检索结果。
根据本发明的实施方式的另一方面,提供一种用于信息检索的设备,该设备包括:用于建立包含实时数据的大索引的装置;用于使用实时数据中的一部分数据更新用户的个性化数据的装置;用于接收用户的检索请求的装置;用于判断用户是否为登录用户的装置;用于根据登录用户的ID查询小索引缓存中是否包含登录用户的个性化小索引的装置;用于检索登录用户的个性化小索引以得到第一数量的检索结果的装置;以及用于返回第一数量的检索结果中相关性分值最高的第二数量的检索结果的装置。
进一步地,还包括用于在第一数量小于第三数量的情况下继续在大索引中检索得到第四数量的检索结果的装置。进一步地,还包括用于将第四数量的检索结果与第一数量的检索结果进行排序并且返回相关性分值最高的第二数量的检索结果的装置。
进一步地,还包括用于在小索引缓存中不包含登录用户的个性化小索引或者个性化小索引已经过期的情况下收集登录用户的个性化数据的装置,其中个性化数据包括登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。进一步地,还包括用于使用个性化数据建立登录用户的个性化小索引的装置;进一步地,还包括用于将个性化小索引插入小索引缓存的装置。
进一步地,还包括用于在用户不是登录用户的情况下仅检索大索引并且返回相关性分值最高的第二数量的检索结果的装置。
总体而言,本发明的实施方式所提供的用于信息检索的方法和设备除建立包含实时数据的大索引外,还为每个用户建立包含用户的个性化数据的个性化小索引。在检索的时候,搜索引擎首先检索用户的个性化小索引,如果检索结果的数量足够多,则直接返回一定数量的检索结果;如果检索结果的数量不够多,则继续对大索引进行检索,而当检索到足够多数量的检索结果时,则立即停止检索,然后返回一定数量的检索结果。由此,可以进一步提高搜索引擎的检索效率和检索性能。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京千橡网景科技发展有限公司,未经北京千橡网景科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310441159.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种性格分析方法
- 下一篇:控制信息传播风险的方法及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置