[发明专利]确定搜索词权重值方法及装置、搜索结果生成方法及装置有效

专利信息
申请号: 201010207880.1 申请日: 2010-06-18
公开(公告)号: CN102289436A 公开(公告)日: 2011-12-21
发明(设计)人: 郭祥 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 逯长明;王宝筠
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 确定 搜索词 权重 方法 装置 搜索 结果 生成
【权利要求书】:

1.一种确定搜索词权重值的方法,其特征在于,包括以下步骤:

接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;

统计数据库中保存的所述搜索信息日志,生成类目分布词表;

从数据库中提取属性词表,优化所述类目分布词表;

根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。

2.根据权利要求1所述的方法,其特征在于:

所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;

优化所述类目分布词表具体为:依次判断所述类目分布词表中各搜索词是否属于所述属性词表,如果是,滤除所述搜索词对应的搜索概率低于预设的第一阈值的搜索类目;如果否,将所述搜索词对应的各搜索类目的搜索概率平均化。

3.根据权利要求1或2所述的方法,其特征在于:

通过下述方式计算所述类目分布词表中各搜索词的权重值:

WE(Word)=-C(Word)+C0

其中,Word为搜索词;WE(Word)为所述搜索词对应的权重值;C(Word)为所述搜索词对应的熵;C0大于等于所述类目分布词表中各搜索词对应的熵的最大值。

4.根据权利要求3所述的方法,其特征在于,通过下述方式计算搜索词对应的熵:

C(Word)=|p1logp1+p2logp2+p3logp3+....+pmlogpm|

其中,Word为搜索词;pi为优化后的所述类目分布词表中所述搜索词对应的第i个搜索类目的搜索概率,0<pi<1;i=1、2、...m;m为所述类目分布词表中搜索类目的总个数。

5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

对所述类目分布词表中的搜索词进行分类,确定各类型搜索词的关注度;

对各类型的搜索词对应的权重进行修正,使得关注度高的搜索词对应的权重值高于关注度低的搜索词对应的权重值。

6.一种搜索结果生成方法,其特征在于,包括以下步骤:

接收输入的搜索请求,获取所述搜索请求中各搜索词对应的权重值;

将各搜索词对应的匹配信息按照各搜索词对应的权重值排序;

其中,各搜索词对应的权重值通过下述步骤得到:

接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;

统计数据库中保存的所述搜索信息日志,生成类目分布词表;所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;

从数据库中提取属性词表,优化所述类目分布词表;具体为:依次判断所述类目分布词表中各搜索词是否属于所述属性词表,如果是,滤除所述搜索词对应的搜索概率低于预设的第一阈值的搜索类目;如果否,将所述搜索词对应的各搜索类目的搜索概率平均化;

根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。

7.一种确定搜索词权重值的装置,其特征在于,包括:

日志生成模块,用于接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;

词表生成模块,用于统计数据库中保存的所述搜索信息日志,生成类目分布词表;所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;

词表优化模块,用于从数据库中提取属性词表,优化所述类目分布词表;

权重计算模块,用于根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。

8.根据权利要求7所述的装置,其特征在于,所述词表优化模块包括:

判断子模块,用于依次判断所述类目分布词表中各搜索词是否属于所述属性词表;

属性词优化子模块,用于当所述判断子模块的结果为是时,滤除所述搜索词对应的搜索概率低于预设的第一阈值的搜索类目;

非属性词优化子模块,用于当所述判断子模块的结果为否时,将所述搜索词对应的各搜索类目的搜索概率平均化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010207880.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top