[发明专利]一种对搜索结果进行排序的方法和装置有效
| 申请号: | 200910151647.3 | 申请日: | 2009-07-20 |
| 公开(公告)号: | CN101957828A | 公开(公告)日: | 2011-01-26 |
| 发明(设计)人: | 谢宇恒;邢飞;郭宁;侯磊;张勤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马敬;逯长明 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 搜索 结果 进行 排序 方法 装置 | ||
技术领域
本申请涉及计算机数据处理技术领域,特别是指一种对搜索结果进行排序的方法和装置。
背景技术
在搜索引擎中,需要根据查询字串的几个词在检索结果(目标字串)中出现的位置距离来估计检索结果与查询字串的匹配程度,距离近的通常具有更高的匹配程度,因而获得更加靠前的排名。例如查询字串是“消毒机”,包含“消毒机”的检索结果通常比“消毒工业洗衣机”更接近用户的意图,而后者又比“消毒设备、脱水器、烘干机”更接近用户的意图,这都将影响检索结果的排名。
计算查询字串的多个词语在目标字串中的距离的一种传统实现方式是最小滑动窗口,即在目标字串中寻找一个长度尽量小的区间,该区间中包含查询字串的每一个字和词,用这个区间的长度来描述查询词语在目标字串中的远近。例如查询字串是“我|看|风景”,目标字串是“我|在|桥|上|看|风景|,|看|风景|的|人|在|桥|下|看|我|。”(竖线代表分词结果)则最小滑动窗口是“我|在|桥|上|看|风景”,长度为6个词语。
另一种计算词语长度的方法是编辑距离,跟最小滑动窗口不一样的是,它并不是计算单一字串的词语长度,而是计算两个字串间的差异部分的长度之和。例如“我和你”和“大和小”差异部分共两个词(第一和第三个词),编辑距离为2。
目前,通常是根据长度或距离确定查询字串和目标字串的匹配程度,也就是说,如果最小滑动窗口长度或编辑距离越小,则匹配程度越高,反之则匹配程度低。
然而在某些情况下,简单的长度或距离并不能准确地反映匹配程度。例如查询字串是“诺基亚电池”,检索结果A是“诺基亚电池”,B是“诺基亚手机,赠送电池”,C是“诺基亚n73手机原装电池”。按照简单的距离计算,A的“诺基亚”和“电池”之间的距离为0,匹配程度最好;B和C的“诺基亚”和“电池”之间的距离都是3个词,匹配程度都不够好。但是实际上C的“n73手机”是跟“诺基亚”强烈相关的词语,“原装”也是跟“电池”强烈相关的词语,虽然中间都是间隔了3个词,但是C的匹配程度比B高很多。
考虑不同词语在距离计算上的不同影响,前人已有一些研究,例如可以根据词性(POS)来设定词语权重。但是这种根据词性设定权重的方法,仍旧过于简单,没有涉及一个本质问题,就是查询字串和目标字串语义是否相关,因而得到的长度或距离不能准确地反映出查询字串和目标字串的匹配程度,即不能保证和查询字串语义相关的目标字串被排在前面。
发明内容
本申请提供一种对搜索结果进行排序的方法和装置,通过查询字串和目标字串的语义关联度,能够更准确地对目标字串进行排序,反映出各目标字串与查询字串的匹配程度。
本申请提供了一种对搜索结果进行排序的方法,包括:服务器预先计算统计样本中每两个词语之间的语义关联权重,获得并保存词语权重表,所述方法还包括:
服务器接收用户终端输入的查询字串,根据查询字串进行搜索并获得目标字串;
服务器对所述查询字串和目标字串分别进行分词,将查询字串的各分词依次与目标字串的分词两两组合;
查询词语权重表,获得每个分词组合的权重值;
根据所述权重值获得加权词语长度,根据所述加权词语长度对每个目标字串进行排序,并反馈给用户终端。
其中,所述服务器预先计算统计样本中每两个词语之间的语义关联权重,获得词语权重表的步骤包括:
服务器获取统计样本;
从所述统计样本中选取第一词语和第二词语,统计所述第一词语和第二词语在统计样本中共同出现的次数C(第一词语,第二词语);
统计第二词语在统计样本中出现的次数∑C(Yi,第二词语),其中,所述Yi代表每个跟第二词语共同出现的词语;
计算所述第一词语在第二词语出现条件下的概率P(第一词语|第二词语)=C(第一词语,第二词语)/∑C(Yi,第二词语);
在查询第二词语时,取第一词语与第二词语的语义相关权重为W=1-P,其中,所述W为权重,所述P为第一词语在第二词语出现条件下的概率;
重复上述步骤,依次获得所述统计样本中每个词语相对其他词语的语义相关权重,得到词语权重表。
其中,所述统计样本的来源包括任何形式的文本或符号,所述文本包括网页文本、用户搜索日志、用户点击日志。
其中,所述加权词语长度为最小滑动窗口加权长度;
根据所述权重值获得加权词语长度对每个目标字串进行排序的步骤包括:
分别取目标字串的各个分词在查询字串各分词的权重最小值;或者,分别取查询字串的各个分词在目标字串各分词的权重最小值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910151647.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种投影显示的笔记本电脑
- 下一篇:一种基于蓝牙技术的多点温度监控系统





