[发明专利]推荐搜索关键词的方法和装置有效
申请号: | 201010618555.4 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102567408A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 朱力;朱小聪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推荐 搜索关键词 方法 装置 | ||
技术领域
本申请涉及信息搜索技术领域,尤其涉及一种推荐搜索关键词的方法和装置。
背景技术
现有搜索引擎通常都提供搜索关键词推荐的功能。例如,用户在搜索栏中输入搜索关键词,并点击“开始搜索”的按钮后,跳转到的页面中不仅包含搜索结果(对网页搜索来说,搜索结果是匹配搜索关键词的网页的链接地址和其他展示信息),还包括搜索引擎推荐的与用户输入的搜索关键词相关的其他搜索关键词或搜索关键词的组合。或者,用户在搜索栏中输入搜索关键词,会在搜索栏的下拉菜单中弹出与用户输入的搜索关键词相关的推荐关键词,以便用户选择某一推荐关键词后进行搜索。
现有的推荐搜索关键词的方案通常都是基于搜索日志的,将搜索日志中与用户输入的搜索关键词相关度较高的搜索关键词作为推荐的搜索关键词的,基本原理如下:
首先建立搜索日志。搜索日志中包含的搜索关键词有以下来源:其一为用户每次在搜索栏中输入的搜索关键词;其二为搜索引擎推荐的搜索关键词。并确定搜索日志中的搜索关键词对应的重要性参数的参数值,搜索日志中的搜索关键词对应的重要性参数的参数值主要取决于以下因素,具体可以按照各因素加权求和的方式来确定每个搜索关键词重要性参数的参数值:
1、点击因素,即该搜索关键词的搜索结果是否存在被用户点击的记录、被点击的次数以及点击的位置等,具体地,若用户只利用该搜索关键词进行了搜索但未点击搜索结果中的网页链接地址,则该搜索关键词的点击因素的参数值较低,例如设定的该因素的参数值为0;若用户利用该搜索关键词进行了搜索后且点击了搜索结果,则该搜索关键词的点击因素的参数值较高,例如设定该因素的参数值为搜索结果被点击的次数。如果搜索关键词存在点击记录、且被点击的次数较多,则该搜索关键词的点击参数的参数值更高,从而使得加权求和后重要性参数的参数值较高。
2、该搜索关键词的质量因素。搜索关键词的质量因素包括搜索关键词的长度、语义项数目、以及是否包含预定搜索关键词集合中的搜索关键词等。搜索关键词的长度即搜索关键词包含的字符数目,具体地,为不同字符数目分别预先设定对应的该因素的参数值,例如设定长度为2的搜索关键词对应的该因素的参数值为1、设定长度为3的搜索关键词对应的该因素的参数值为0.8、设定长度为4的搜索关键词对应的该因素的参数值为0.5等等;语义项数目是指对该搜索关键词进行分词处理后,将分词处理获得的语义项(Term)数目与设定的比较阈值进行比较,根据比较结果确定搜索关键词对应的语义项因素的参数值;预定的搜索关键词集合例如违禁词集合、产品品牌词集合或特殊商业意图词集合等,根据比较搜索关键词中是否包含这些预定的搜索关键词集合中的样本词,来确定搜索关键词对应的该因素的参数值。
在进行搜索关键词推荐时,搜索引擎接收到用户在搜索栏中输入搜索关键词后,针对搜索日志中包含的每个搜索关键词,执行:
确定搜索日志中包含的各搜索关键词与输入的搜索关键词的相似度值,具体确定两个搜索关键词相似度值的方法有很多,例如基于两个搜索关键词最长公共子串等方法,然后对确定出的相似度值和搜索日志中包含的该搜索关键词的重要性参数的参数值进行加权求和的方式来确定搜索日志中包含的该搜索关键词的推荐度值。
按照对应的推荐度值由高到底的顺序,对搜索日志中包含的搜索关键词进行排序,选择排序靠前的N个搜索关键词作为推荐给用户的搜索关键词。
上述基于搜索日志的推荐搜索关键词的方案的优点在于能够逐步引导具有明确搜索意图的用户完成或修正搜索过程。例如,用户输入的搜索关键词为“手机”,按照上述基于搜索日志的推荐搜索关键词的方案第一次推荐出的搜索关键词为“S品牌手机”,用户点击了推荐的搜索关键词“S品牌手机”进一步进行搜索时,相当于本次输入的搜索关键词为“S品牌手机”,按照上述基于搜索日志的推荐搜索关键词的方案第二次推荐出的搜索关键词为“S品牌智能手机”,依此类推。
然而对于没有明显搜索意图的用户而言,例如用户输入的搜索关键词为“代理加盟”,上述不断细化的推荐方式难以满足需求,推荐出的搜索关键词往往是与输入的搜索关键词语义上基本一致或在输入的搜索关键词基础上添加其他限定词后的词,并且推荐出的搜索关键词往往局限于某个特定的领域,推荐搜索关键词的效果不佳,即推荐出的关键词很少被用户进一步点击。并且,由于搜索引擎服务器进行相关关键词的推荐时,需要调取搜索日志、进行相似度值的计算、排序等操作,占用了搜索引擎服务器的系统资源,然而推荐的相关关键词确无法满足用户的需求,因此,这造成了搜索引擎服务器系统资源的浪费,影响了搜索引擎服务器的处理效率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618555.4/2.html,转载请声明来源钻瓜专利网。