[发明专利]基于相关性分数分布对查询意图进行分类的方法无效
| 申请号: | 201110415617.6 | 申请日: | 2011-12-13 |
| 公开(公告)号: | CN102411626A | 公开(公告)日: | 2012-04-11 |
| 发明(设计)人: | 闫宏飞;刘晓兵;徐谷子;何靖;李铄 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 相关性 分数 分布 查询 意图 进行 分类 方法 | ||
技术领域
本发明涉及网络和信息检索技术领域,尤其涉及一种基于相关性分数分布对查询意图进行分类的方法。
背景技术
随着网络和信息检索技术的发展和普及,搜索引擎在用户日常网上活动中占据了愈发重要的地位,因而分析用户在使用搜索引擎时其背后的用户需求也逐渐成为搜索引擎领域一个重要的研究方向。目前已有的研究发现,出于不同的信息需求,用户将会选择不同的搜索结果。如果搜索引擎能够推测出用户的信息需求,那么就可以在此基础上向用户提供更符合其要求的搜索结果,进而提升用户满意度。
查询意图定义为查询背后的信息需求,用户的信息需求是多种多样的,研究中一般会将查询需求归纳为几种类别,这样,对查询意图的分析主要就是判定查询意图属于哪一类。
Broder等人[1]在2002年首次提出查询意图分类的问题,他们把查询意图分成三类,分别是:
1)导航类:即用户要找到一个导航类的网页,如一个网站的首页,一个网站的频道页面等。如用户搜索“新浪”,一般情况下其希望得到的是新浪主页的链接地址。
2)信息类:即用户希望直接找到一些能够满足需求的网页,这些网页大多是内容型的,通过阅读这些网页的内容,就能够收集信息,满足需求。如用户搜索“乔布斯去世”,其希望搜集到关于乔布斯逝世,乔布斯的生平等相关信息,同时根据搜索结果进一步修改并精确查询语句,进行多次检索,满足其信息需求。此外,在搜索时,信息类的查询意图占有最大的比例。
3)事务类:即用户希望通过找到一些网页或者服务,完成某个事务,譬如购买一个选定的商品、下载一个特定的资源、进行转账付款等等。
此外,Rose等人在2004年[2]将查询意图分为导航类,信息类和资源类,并且对后两类进行了更细粒度的划分。
另外还有一些研究,将查询意图定义为商业类和非商业类,产品类和非产品类,地理信息类和非地理信息类等等,具体类别的定义应该同搜索引擎能够提供的服务相关联。
识别用户的查询意图,有助于搜索引擎提供更加能够满足用户信息需求的检索结果,搜索引擎可以根据查询意图类型采用不同的检索模型,或者是对检索模型设置不同的参数;根据查询意图的不同,搜索引擎还可以在结果展示方面做一些优化,比如,如果查询是导航性的,通常会在生成摘要的时候做链接展开,如在Google上检索“新浪”生成的摘要信息主要包含了新浪几个经常访问的子站点的链接;如果能够识别出查询具有商业意图,那么就可以向用户投放相关的广告,被点击的概率就会更大。
对于查询意图的分类,现有的实现方案主要采用用户点击数据和锚文本的分布作为分类特征,并选取常用的分类算法,如SVM,DT,Naive Bayes等,对查询意图进行分类。由于最初的研究在定义查询意图类型的时候有些分歧,后续的一些研究中主要是将查询意图分成导航类和信息类两种类别,研究方法的差别主要体现为特征选取方法的不同,目前对查询意图进行分类常用的主要有以下几种特征,其中nCS、nRS和Click Distribution(点击分布)主要是通过挖掘用户点击数据获取,Anchor-link Distribution(锚链接分布)主要是通过分析锚文本集合获取。
1、nCS特征值
根据较少努力假说[2],如果一个查询需求是导航类型的,那么用户很可能在查询的时候,就已经存在明确的目标链接并且直接点击返回结果列表中的相应链接,即用户更加倾向于点击搜索引擎所返回的结果列表中的一小部分链接。根据以上假说,可以根据用户对某一个查询关键词的搜索结果的点击的个数来分析他的查询需求。nCS特征值定义:
2、nRS特征值
根据覆盖页面假说[3],如果一个查询需求是导航型的,那么用户更加倾向于点击搜索引擎所返回的结果列表中的前几个链接。这是因为,导航类的查询需求比信息类或者交易类查询需求在信息检索上具有更好的表现。因此,对某一查询关键词,可以通过分析用户点击的链接在返回结果中的排名来判断查询的意图。nRS特征值定义如下:
3、Click Distribution[4]
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110415617.6/2.html,转载请声明来源钻瓜专利网。





