[发明专利]一种搜索方法和装置有效
申请号: | 201210208671.8 | 申请日: | 2012-06-19 |
公开(公告)号: | CN103514181B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 黎耀炳;郑伟;金华兴;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 装置 | ||
本申请提供了一种搜索方法和装置,以解决现有搜索方法效率较低,并且比较浪费资源的问题。所述的方法包括:从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,并根据目标用户的页面上的信息和所述目标词建立倒排索引,其中,所述倒排索引中包括目标字段和页面信息字段;接收查询词;根据所述查询词,在所述倒排索引中查找与所述查询词匹配的目标用户;通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度,将所述匹配的目标用户按照所述相关度排序并返回。本申请在搜索时不需要查找匹配无意义的数据,提高了搜索的效率,并且减少了资源的浪费。
技术领域
本申请涉及搜索技术,特别是涉及一种搜索方法和装置。
背景技术
随着网络的不断发展,越来越多的用户通过网络发布信息和获取信息,因此,有时需要在某个平台中获取信息的发布者,即对目标用户进行搜索。
针对某个平台上目标用户的搜索中,通常是针对目标用户的页面上的信息建立索引。因此,在平台的访问者输入查询词后,所述平台的服务器可以在索引中查找与所述查询词匹配的目标用户,然后根据匹配程度进行排序并反馈给所述访问者。
但是,由于目标用户的页面上的信息,仅仅是对目标用户进行简要的介绍,不能全面的展示目标用户,因此采用上述的方法进行搜索时,搜索到的目标用户比较少,召回率比较低。并且,由于目标用户的页面上的信息通常更新的频率比较低,信息比较陈旧,因此采用上述的方法进行搜索时,准确性比较低。
针对上述的情况,可以收集目标用户在平台中发布的信息建立信息库,根据所述查询词对信息库中用户发布的信息进行匹配并排序,然后反馈给访问者。但是,一个平台中有非常多的目标用户,每个目标用户在平台中又会发布非常多的信息,因此信息库中的信息是海量的。
并且,每一个目标用户发布的目标信息是纷繁复杂的,其中一些是所述目标用户经常发布的信息,另一些是目标用户偶尔发布的信息。偶尔发布的信息往往在排序中排在比较低的位置,并且对访问者的意义不大,甚至是无意义的,例如,在电子商务平台中,访问者在搜索供应商时,往往希望搜索到的供应商的主营产品是与查询词匹配的,而不希望搜索到的供应商仅销售过一两件与查询词匹配的产品。
在一个平台中通过查询词来搜索目标用户时,每次都要从信息库中获取海量的数据与查询词进行匹配,进而确定目标用户,此时就会导致搜索的效率非常低。即使所述信息是用户偶尔发布的信息,依然需要进行查找匹配,查找匹配中获取了无意义的数据,会导致资源的浪费。
发明内容
本申请提供一种搜索方法和装置,以解决现有搜索方法效率较低,并且比较浪费资源的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,并根据目标用户的页面上的信息和所述目标词建立倒排索引,其中,所述倒排索引中包括目标字段和页面信息字段,N为正整数;
接收查询词;
根据所述查询词,在所述倒排索引中查找与所述查询词匹配的目标用户;
通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度,将所述匹配的目标用户按照所述相关度排序并返回。
优选的,所述从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,包括:
从目标用户发布的目标信息中获取目标词数据;
根据预设条件,从所述目标词数据中抽取中心词;
统计所述目标用户发布的所有目标词数据中所述中心词出现的次数;
获取出现次数最高的前N个中心词作为目标词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210208671.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制设备、控制方法、以及程序
- 下一篇:袋装食品紧实机