[发明专利]一种用户间查询关联度的查询扩展方法在审
| 申请号: | 201510863732.8 | 申请日: | 2015-12-02 |
| 公开(公告)号: | CN105447159A | 公开(公告)日: | 2016-03-30 |
| 发明(设计)人: | 吕学强;徐丽萍;董志安 | 申请(专利权)人: | 北京信息科技大学;北京城市系统工程研究中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 查询 关联 扩展 方法 | ||
技术领域
本发明属于网络信息搜索技术领域,具体涉及一种用户间查询关联度的查询扩展方法。
背景技术
随着Internet技术的发展和网络信息的飞速增长,互联网已经成为全球最大的知识库,是人们获取信息的重要来源。利用关键词搜索相关网络信息的搜索引擎在一定程度上帮助了人们快速地从浩瀚的信息资源中查找所需的信息,但它仍然面临一些亟待解决的问题。通过对搜索引擎日志的研究分析发现,49%的用户查询仅有一个单词,33%的查询由两个单词组成,用户平均使用1.4个单词来描述他们的查询内容,查询串简短的信息经常无法提供用于检索相关文档的足够信息,这导致搜索引擎的检索结果不够理想。当前常用的解决这些问题的方法主要是查询扩展方法,然而查询扩展的方法存在着两点不足:
1)扩展词没有根据用户所需进行扩展。大部分扩展只根据关键词的表面进行扩展,但是事实上,关键词本身存在就有很多歧义,例如:“苹果”既可能是电脑品牌,也可能是水果,“火箭”既可以是检索航天信息,也可以检索NBA火箭队的信息,据日志统计分析,只有20%的用户用同一个检索词表达同一个概念,这降低了检索的效率。
2)检索用户的个人信息未被充分利用导致查询漂移问题的存在。查询漂移是指查询扩展后的主旨偏离了用户的原始检索意图。因此扩展词选取的不好就有可能带来查询漂移的出现,扩展词的选取中包含了较多不相关的词汇,或者非相关的检索词得到了较高的权重。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的用户间查询关联度的查询扩展方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种用户间查询关联度的查询扩展方法,包括以下步骤:
步骤1)统计一个用户在近期一段时间内所浏览的网页的总数;
步骤2)划分兴趣类别,并指定代表每个所述兴趣类别的关键词;
步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目;
步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;
步骤5)构建出该用户的用户偏好模型;
步骤6)利用步骤1)至步骤5)的方法构建出多个用户的用户偏好模型;
步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度,将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中,形成用户兴趣偏好相似的多个用户群;
步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间,用户群里的每一个用户在搜索信息时优先对所述搜索空间里的文档进行搜索。
进一步地,所述步骤1)中的所述近期一段时间为六个月至十二个月。
进一步地,所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为:
用户i对兴趣类别Ik的兴趣偏好权重其中:Ik为第k个兴趣类别,k为正整数,n(Ik)为用户i在近期一段时间内所浏览的网页中属于兴趣类别Ik的个数,N为用户i在近期一段时间内所浏览的网页的总数。
进一步地,所述步骤5)中的所述用户偏好模型用向量表示为:
ITi=((I1,wi(I1)),(I2,wi(I2)),...,(In,wi(In))),其中,1≤k≤n,n为正整数。
进一步地,所述步骤7)中的不同用户的兴趣相关度的计算具体为:用户i和用户j之间的兴趣相关度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心,未经北京信息科技大学;北京城市系统工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510863732.8/2.html,转载请声明来源钻瓜专利网。





