[发明专利]一种基于内容可信的Web搜索引擎系统及搜索方法有效
申请号: | 201310564892.3 | 申请日: | 2013-11-14 |
公开(公告)号: | CN103646034B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 徐洪珍;许杰云;于臻;汤彬 | 申请(专利权)人: | 东华理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南昌新天下专利商标代理有限公司36115 | 代理人: | 施秀瑾 |
地址: | 344000 江西省抚州市府路*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 可信 web 搜索引擎 系统 搜索 方法 | ||
技术领域
本发明涉及网络通信处理领域,具体为一种基于内容可信的Web搜索引擎系统及搜索方法。
背景技术
随着信息技术和网络技术的不断发展,基于互联网的信息检索日益成为人们生活中的一部分,搜索引擎也成为其中不可或缺的工具。然而,基于传统搜索引擎和搜索方法检索到的Web信息来源广泛,内容丰富多样,但存在质量良莠不齐、表述不一,事实真假难辨等问题,使得基于传统搜索引擎和搜索方法检索到的Web信息难以保证其可信性。网页的过时、新闻的失真、垃圾广告、反动宣传等无处不在,并与正常的、可靠的信息资源鱼目混珠在一起。当前,为了从互联网上检索到用户期望的信息,用户必须通过人工的方式,判断从传统搜索引擎返回的海量Web信息中,哪些信息是可靠的或可信的。这种方法不仅耗时,而且,对大部分用户来讲,也很难判断搜索引擎返回Web信息的可信性。
虽然目前的研究者在搜索引擎返回Web信息的质量方面做了一些工作,但很少考虑Web信息的内容可信问题。目前的搜索引擎系统及搜索方法都不能实现基于内容可信的搜索。
发明内容
针对以上技术问题,本发明提供了一种基于内容可信的Web搜索引擎系统及搜索方法,可以实现web搜索网页的内容可信因素的量化、内容可信度的计算,以及基于内容可信判断的Web信息检索。
本发明包括:
一种基于内容可信的Web搜索引擎系统,包括:
(1) Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2) 搜索请求处理模块,将Web用户的搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3) 查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4) 内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5) 查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6) 查询结果存储数据库,存储具有内容可信度的查询结果。
一种基于内容可信的Web搜索引擎系统的搜索方法,通过以下技术方案实现:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
进一步地,Web网页的内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,
网页内容相关性的计算为:对任一用户搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,表示q和T(p)重叠的个数;
网站权威性的计算方法参考文献“Judgment of information quality and cognitive authority in the web”中的计算方法;
网页外部链接数的计算为:对网页p在Google、Bing、百度、搜狗等搜索引擎中的外部链接数取平均值;
网页时间的计算为:用户查询的当前时间减去网页创建的时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华理工大学,未经东华理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310564892.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高硬度保护壳及其制备方法
- 下一篇:保护β-胡萝卜素的组合物
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法