[发明专利]基于可拒绝策略的元搜索结果排序方法有效
申请号: | 201410382660.0 | 申请日: | 2014-08-05 |
公开(公告)号: | CN104268142B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 韩立新;刘合兵;曹林;郭海凤 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可拒绝 策略 搜索 结果 排序 算法 | ||
技术领域
本发明涉及一种基于可拒绝策略的元搜索结果排序方法,属于搜索引擎方法技术领域。
背景技术
互联网的迅速发展使得网络资源急剧增加,用户如何能够有效地获取所需信息成为一个非常值得研究的课题。搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎的出现大大提高了人们对互联网信息检索的能力和效率。据中国互联网络信息中心(CNNIC)2014年1月《第33次中国互联网络发展状况统计报告》的数据,中国网民搜索引擎用户规模达4.90亿,使用率为79.3%,成为互联网的基础应用之一,是网民获取信息的重要工具。
搜索引擎给人们带来便利的同时也存在着较大的问题。传统搜索引擎网络资源覆盖率较低,检索返回结果的相关度不高,而且不同搜索引擎针对同一个查询所返回结果的重叠率也很低。用户要想获得全面、准确的搜索结果,往往需要使用多个搜索引擎。
为进一步提高用户检索满意度,减少用户检索次数,提高检索覆盖率和准确率,元搜索引擎(Meta-Search Engine)应运而生。元搜索引擎提供统一检索界面,将用户的检索请求提交给多个成员搜索引擎(或源搜索引擎),并将它们的检索结果汇集在一起呈现给用户。
现有的元搜索引擎对于成员搜索引擎按照相等的权重进行调用,并对所返回的检索结果或按照先后原则直接合并排序,或按照位置进行排序,或利用相关分值进行融合排序,没有考虑到用户的实际需求、兴趣爱好以及对排序结果的浏览查看情况,等等。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种基于可拒绝策略的元搜索结果排序方法。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
一种基于可拒绝策略的元搜索结果排序方法,包括如下步骤:
步骤一:用户通过用户注册登录模块进行注册并初次登录,输入查询串q;
步骤二:元搜索引擎根据用户输入的查询串q,提取关键词,通过分发模块将关键词按照成员搜索引擎的格式分发给所调用的成员搜索引擎,收集每个成员搜索引擎返回的搜索结果;
步骤三:通过排序模块接收每个成员搜索引擎返回的搜索结果,对搜索结果计算相关度,然后依照改进的Borda函数,并结合成员搜索引擎权重进行排序,将排序后的结果返回给用户;
步骤四:通过搜索引擎权重调整模块对用户权重模型进行更新;根据用户点击等反馈信息来调整成员搜索引擎权重分配,直至拒绝调用某些成员搜索引擎。
所述用户注册登录模块包括登记用户的基本信息;所述基本信息包括地域、行业、教育程度、兴趣爱好等,可初步了解用户的偏好信息;所述初次登录用户默认设置选择全部的成员搜索引擎,各成员搜索引擎权重相同。
所述排序模块包括对返回的搜索结果的预处理,所述预处理包括如下步骤:
步骤一:提取返回的搜索结果重要组成部分,包括网址、标题、摘要、出处、位置,并根据网址、标题、摘要、出处、位置对返回的搜索结果进行排序;
步骤二:计算查询串与搜索结果之间的相关度,主要计算查询串与标题、摘要之间的相关度;所述标题的重要程度高于摘要,计算相关度时标题和摘要所占权重不一样;所述摘要的长度大于标题的长度时,文档越长,所包含信息越多,同样关键词也可能多次出现;所述关键词第二次出现不如第一次出现的信息量大,如果某个关键词在搜索结果中反复出现,则会降低该关键词的可信度,在计算相关度时需要对其进行惩罚;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410382660.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子病历查询语句的构造方法
- 下一篇:一种药品名称数据匹配方法和装置