[发明专利]基于内容相关性的反馈式搜索方法及内容相关方法有效
申请号: | 200810052580.3 | 申请日: | 2008-04-01 |
公开(公告)号: | CN101256573A | 公开(公告)日: | 2008-09-03 |
发明(设计)人: | 侯越先 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 相关性 反馈 搜索 方法 相关 | ||
技术领域
本发明涉及利用计算机技术的内容管理系统及其实现方法,特别是涉及一种在反馈式搜索引擎框架下实现网页内容相关性挖掘的方法。
背景技术
随着互联网的迅速发展,搜索引擎已成为WEB用户获取网络资源的最主要途径。目前主流的搜索引擎主要根据用户输入的查询词在网页中的出现频率,同时辅以网页权威性等信息,从而生成相关联的查询结果。但由于WEB用户提交的关键字一般很简短,且可能有歧义,导致搜索引擎无法确定用户所需要的网页,降低了搜索结果的准确性,也影响了检索信息的中肯度(包括查全和查准两方面的综合评价)。
现有的搜索引擎所常用的个性化搜索的方法有以下四种不同的设计技巧:
1、类别搜索方法:
对网页数据库进行信息预分类,然后设法确定用户需要哪一类的网页,如果用户单击其中一个类别,然后再使用搜索引擎,将可以选择搜索整个Internet还是搜索当前类别。此类目录式搜索引擎,目前最有代表性的分类目录式搜索引擎如雅虎。但是,它存在以下问题:一方面,为了提交给用户一组最中肯的搜索结果,往往需要借助很细的类别划分粒度来进行预分类处理,但是细类别划分粒度下往往导致大量的分类交叉。另一方面,单纯根据用户给出的关键词,往往无法精确定位到用户想要搜索的类别。
2、利用用户个性配置与关键词结合的搜索方法:
将系统记录的用户个性信息与用户输入的关键字一起构成查询条件,为用户提供符合个人需要的查询结果。这种方法除了需要对网页分类,还需长期跟踪用户行为,这就必须假定用户行为是平稳的。web用户集体行为具有一定的自相似特征,即持续的突发性。因此单用户行为的时域平稳性假定须谨慎对待。直观地说,在此类搜索设计方法中,并不能根据用户行为的历史统计特征并推测出该用户经常可能发生的具有一定持续性的未来行为,原因是事实中存在用户的兴趣转移。持续性的兴趣转移效应对用户行为造成的影响不应被简单忽略。因此,该方法在设计上存在难度,使用中存在不可预期的风险。
3、基于点击量(click popularity)与粘性参数(stickiness)排序结果的搜索方法
该方法通过分析用户的行为信息决定搜索结果链接的排列位置。具体做法如DirectHit排序系统:目前被Lycos、Hotbot、MSN及很多其它搜索引擎所使用。其中,点击量是对搜索引擎结果页面上的链接被用户点击的次数的统计,粘性是对用户在某个网站上停留的时间长度的统计。该方法的缺点是:对于通用搜索引擎,当遇到多义性的查询关键词时;该方法由于忽视“一词多义”的问题,使得链接与查询语句的相关度更多的取决于关注这个链接的人数,这样的搜索结果会有缺失。
4、超链接分析的搜索方法
基于互联网的超链接结构评价网页的权威性,这种方法专注于评价网页本身的质量而不是查询词和网页之间的相关度。其出发点:一个网页有较高的关注度则说明它是被很多用户推荐的,由此说明这个网页是一个高质量的网页。但是,在我们看来,网页在搜索引擎结果中的排列位置不仅与网页本身的质量相关,更重要的是网页与查询词以及用户兴趣的相关度,这两者之间并不存在本质上的冲突。而通过分析网页的关注度来评价网页的质量则无助于计算网页与查询语句的相关度。
一些现有技术也试图利用海量clickthrough数据改进检索结果的中肯性。这类技术大致可归入两个方向。第一个方向是通过分析clickthrough数据来优化搜索引擎中的ranking函数;第二个方向是通过分析clickthrough数据来抽取用户偏好的信息。近来,将ranking SVM扩展到一种co-training框架以解决部分clickthrough数据未标定的问题,利用spybayes方法学习基于特定用户偏好的ranking函数。但是,无论所希望学习的ranking函数是否基于特定用户偏好,ranking的系统都有查询依赖性(query dependent)的,有必要考虑使用二元ranking函数r(qi,dj)。这里qi是第i个查询,dj是第j个文本。由于可能查询潜在的无限性,使得ranking函数难以在实际搜索引擎的大规模开放环境中被有效学习。
因此,如何克服上述各现有方法的缺陷,从而提高搜索引擎中用户所关心的搜索结果的中肯度,是本发明中要解决的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810052580.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水泥添加剂的应用方法
- 下一篇:抗肿瘤化合物二酮哌嗪PJ147的合成方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法