[发明专利]一种搜索方法和装置有效
申请号: | 201210208671.8 | 申请日: | 2012-06-19 |
公开(公告)号: | CN103514181B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 黎耀炳;郑伟;金华兴;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 装置 | ||
1.一种搜索方法,其特征在于,包括:
从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,并根据目标用户的页面上的信息和所述目标词建立倒排索引,其中,所述倒排索引中包括目标字段和页面信息字段,N为正整数,所述目标用户为使用一个平台的用户,所述目标词用于表征目标用户发布次数最高的前N个目标信息;
接收查询词;
根据所述查询词,在所述倒排索引中查找与所述查询词匹配的目标用户;
通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度,将所述匹配的目标用户按照所述相关度排序并返回;
其中,所述在所述倒排索引中查找与所述查询词匹配的目标用户的步骤,包括:
查找所述查询词与所述目标字段和页面信息字段中的字段值是否匹配;
若匹配,则匹配的字段值对应的用户即为目标用户。
2.根据权利要求1所述的方法,其特征在于,所述从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,包括:
从目标用户发布的目标信息中获取目标词数据;
根据预设条件,从所述目标词数据中抽取中心词;
统计所述目标用户发布的所有目标词数据中所述中心词出现的次数;
获取出现次数最高的前N个中心词作为目标词。
3.根据权利要求2所述的方法,其特征在于,还包括:
针对每个中心词,计算所述中心词出现的次数占所有中心词出现次数的比重,将所述比重作为所述中心词的目标系数。
4.根据权利要求3所述的方法,其特征在于,所述通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度,包括:
针对匹配的目标用户,分别确定所述目标字段和页面信息字段,与所述查询词的匹配度;
对各个匹配度进行加权求和,将计算结果作为所述匹配的目标用户与查询词的相关度。
5.根据权利要求4所述的方法,其特征在于,将供应商作为目标用户,将产品信息作为目标信息,将主营产品词作为目标词。
6.根据权利要求5所述的方法,其特征在于,所述目标词信息为产品标题,所述从目标用户发布的目标信息中抽取出现次数最高的前N个中心词作为目标词,包括:
从供应商发布的产品信息中获取产品标题;
根据预置的语法规则,从所述产品标题中抽取中心词;
统计所述供应商发布的所有产品标题中所述中心词出现的次数;
获取出现次数最高的前N个中心词作为主营产品词。
7.根据权利要求6所述的方法,其特征在于,还包括:
针对每个中心词,计算所述中心词出现的次数占所有中心词出现次数的比重,将所述比重作为所述中心词的主营产品系数。
8.根据权利要求7所述的方法,其特征在于,所述目标字段为主营产品字段,所述通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度,包括:
针对所述匹配的供应商,确定所述主营产品字段和页面信息字段,与所述查询词在单词级别上的匹配度;
确定所述主营产品字段和页面信息字段,与所述查询词在语义级别上的匹配度;
对所述各个匹配度进行加权求和,将计算结果作为所述匹配的供应商与查询词的相关度。
9.根据权利要求7所述的方法,其特征在于,所述通过所述目标字段和页面信息字段,确定所述匹配的目标用户与查询词的相关度之前,还包括:
对所述查询词进行预处理,所述预处理包括以下至少一项:
删除所述查询词中的无效字符;
根据预置的语法规则,从所述查询词中抽取中心词;
删除所述查询词的词根;
识别所述查询词中的国家地域信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210208671.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:控制设备、控制方法、以及程序
- 下一篇:袋装食品紧实机