[发明专利]一种用于搜索结果排序的转义度确定方法和装置有效
申请号: | 201110135805.3 | 申请日: | 2011-05-24 |
公开(公告)号: | CN102799586A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 程道放 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 搜索 结果 排序 转义 确定 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种用于搜索结果排序的转义度确定方法和装置。
【背景技术】
随着计算机技术的不断发展,搜索引擎已经成为人们获取信息的主要手段。当用户输入搜索请求query后,搜索引擎将与该query匹配的页面包含在搜索结果中返回给用户。
对搜索结果中各页面的排序是基于用户输入的query与页面的匹配程度进行的,在目前的搜索技术中通常该匹配程度仅取决于query中各词语在页面中的物理距离。但实际上query中包含的各词语之间是存在紧密度上的区分的,同一个query中,如果紧密度大的词语对在页面1中的物理距离与紧密度小的词语对在页面2中的物理距离相同,那么显然页面1的排序应该比页面2的排序靠前,但在目前的搜索技术中并不能在搜索结果的排序中体现这一特点,因搜索结果的排序不优导致用户长时间占用网络资源,从而造成网络资源的浪费。
【发明内容】
本发明提供了一种用于搜索结果排序的转义度确定方法和装置,以便于提高搜索结果的排序效果,从而节约网络资源。
具体技术方案如下:
一种用于搜索结果排序的转义度确定方法,该方法包括:
A、对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度;
B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布;
C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。
其中,所述步骤A具体包括:
A1、对所述搜索请求进行分词处理;
A2、利用所述分词处理后得到的词语,确定所述搜索请求中的各词语对;
A3、查询预先挖掘出的专名词典和/或共现词典,确定所述各词语对的紧密度,其中所述专名词典包含预先挖掘出的专有名词,所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。
较优地,在所述步骤A1中还包括:对所述分词处理后得到的词语进行基于停用词表的过滤。
具体地,所述步骤A2包括:
将所述分词处理后得到的词语中相邻的词语两两构成词语对;或者,
将所述分词处理后得到的词语中表意能力强的词语两两构成词语对,其中所述表意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。
在所述步骤A3中查询预先挖掘出的专名词典确定所述各词语对的紧密度具体包括:
如果所述专名词典中的专有名词包含词语对i,则将所述词语对i的紧密度确定为预设紧密度值,所述词语对i为所述搜索请求中各词语对的任一个。
在所述步骤A3中查询预先挖掘出的共现词典确定所述各词语对的紧密度具体包括:
查询所述共现词典确定词语对i在已有数据源中的共现状况,所述共现状况包括词语对i在各距离范围等级的出现次数,所述词语对i为所述搜索请求中各词语对的任一个;
确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级;
将确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度,其中预先设置不同距离范围等级对应不同的紧密度。
另外,所述共现词典的挖掘具体包括:
D1、对所述数据源进行分词处理和基于停用词表的过滤后,将得到的词语两两组合构成词语对;
D2、统计所述步骤D1得到的词语对在所述数据源中的共现状况,并将统计到的共现状况存入共现词典中。
如果在所述步骤A3中同时采用了专名词典和共现词典,并且通过专名词典的查询能够确定出词语对i的紧密度,则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度,所述词语对i为所述搜索请求中各词语对的任一个。
具体地,对网页进行的结构信息处理包括:
将网页划分为网页块、段和句;
记录网页中各词语的位置信息并存储在数据库中,其中位置信息包括:所在的网页块、段、句和句内偏移。
基于此,所述步骤B具体包括:
B1、根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息,确定出所述词语对i在网页d中的共现状况,所述词语对i为所述搜索请求中各词语对的任一个,网页d为所述搜索结果中的任一个网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110135805.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管内式可移动分线卡
- 下一篇:具有减振功能的硬盘可拔插POS一体机