[发明专利]基于网络相关度的查询分类有效
| 申请号: | 201110408165.9 | 申请日: | 2011-12-09 |
| 公开(公告)号: | CN102521341A | 公开(公告)日: | 2012-06-27 |
| 发明(设计)人: | S.苏雷什;R.D.伯格 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘鹏;刘鹏 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 相关 查询 分类 | ||
背景技术
为了向用户提供更加相关的搜索结果,将查询和随后要对其进行点击的统一资源定位符(URL)分类到分类索引中。查询和URL被分配到特定的类别中,这一类别也称为知识域(knowledge domain)。知识域一般来说定义了当查询被送到搜索引擎时用户正在寻找的主题。
大多数通用随机馈入(CRF)分类器使用基于机器的学习,利用否定和肯定查询来训练分类器。这一过程使用反复循环来填充缺少的空隙,并且可能还会花费数个月来进行发展。此外,分类器需要频繁改变或更新,这使得总体处理资源非常昂贵。
发明内容
下面,本发明的实施方式由权利要求限定。提供了各种实施方式的高级概述,以介绍将会在下面的具体实施方式部分中进一步详细介绍的系统、方法、算法和介质的概要。本发明内容部分并既不打算用来认定所要求保护的主题的关键特征或者基本特征,也不打算用来在确定所要求保护的主题的范围的时候用作孤立的辅助。
介绍了基于网络相关度的查询分类的系统、方法、算法和计算机可读存储介质。可以是使用现有的网络结果来对搜索查询进行分类。搜索应用程序拥有者可以将他们的应用程序预订到一个或多个可用的具体知识域。知识域的例子包括,但不局限于,电影、音乐、旅行、新闻、食品和健康。可以将给定的用户查询分类到具体的知识域中,例如,基于这个知识域,搜索应用可以最好地完成搜索。
网络索引相关度受到一组基准点网域的影响,以针对搜索应用触发对查询进行分类。可以针对给定的查询,对强烈映射到知识域的现有网域进行分析。基于相关结果的数量,确定查询是否很好的映射到网域,并且因此对应于知识域。
针对各个知识域,选择反映该知识域的至少两个网站(也称为种子网域)。针对这些种子网域运行查询。为每次运行返回页面计数。在知识域之间比较这些页面计数,以确定相对于所有的域,该查询最有可能与哪个知识域相关。基于这一比较,与知识域相关联地对查询进行分类。每个域的各组分类之后的查询可以用作输入到分类器的训练数据。
附图说明
下面将参照附图详细介绍本发明的说明性实施方式,这些附图整体地以引用方式并入本文,并且其中:
图1是图解说明按照本发明的实施方式使用的示范性计算机操作系统的框图;
图2是图解说明按照本发明的实施方式使用的查询分类系统的框图;
图3是按照本发明的实施方式使用的文档计数的矩阵;
图4是按照本发明的实施方式使用的应用了文档缩放系数(scalar)的矩阵;
图5是按照本发明的实施方式使用的对查询进行分类的方法的流程图;
图6是按照本发明的实施方式使用的过滤搜索结果的示意图;
图7是按照本发明的实施方式使用的确定查询分类的方法的流程图;
图8是按照本发明的实施方式使用的覆盖率(coverage)计算的示意图;
图9是按照本发明的实施方式使用的确定查询分类的方法的流程图;和
图10是按照本发明的实施方式使用的对查询进行分类的方法的流程图。
具体实施方式
本发明的实施方式提供基于网络相关度的查询分类的系统、方法、算法和计算机可读存储介质。这一具体实施方式部分以及后附的权利要求满足适当的法律要求。
术语步骤、块等可能在本文中用于暗示所采用方法的不同动作,但是这些术语不应被理解为表达任何特定的顺序,除非明确说明了各个步骤、块的顺序。类似地,术语模块等可能在本文中用于暗示所采用系统的不同部件,但是这些术语不应被理解为表达任何特定的顺序,除非明确说明了各个模块等的顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110408165.9/2.html,转载请声明来源钻瓜专利网。





