[发明专利]一种基于大数据的信息检索系统及方法在审
申请号: | 201711344430.5 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107977452A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 杨荣根;龚乐君 | 申请(专利权)人: | 金陵科技学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 陈卓 |
地址: | 211169 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 信息 检索系统 方法 | ||
技术领域
本发明设计信息检索领域,尤其涉及一种大数据的信息检索系统及方法。
背景技术
搜索引擎是因特网上专门提供检索服务的一类网站,这些网站通过网络搜索软件(又称为网络蜘蛛)等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询做出响应。
随着互联网应用的普及和大数据时代的到来,每天全球互联网网页数目以千万级的数量增加。要在浩瀚网络检索需要的信息,搜索引擎已成为访问互联网不可或缺的助手。
传统的搜索引擎的工作原理可以用图1来说明,其中阴影部分是本发明经过改进后增加的模块。搜索引擎一般由数据抓取器、解析器、索引器和检索器四个部分组成。数据抓取器也叫网络蜘蛛,从互联网上抓取网页,并按照深度优先或者广度优先的策略沿着网页中的所有URL爬到其它网页,将获得的网页收集回来。数据解析器将收集到的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度。索引器用这些相关信息建立网页索引数据库。检索器从用户提供的查询条件,在索引数据库中检索,找到符合该关键词的所有相关网页,由页面生成系统将搜索结果的链接地址和摘要等内容组织起来返回给用户。
得益于硬件技术的发展以及软件计算算法的进步,现在的搜索引擎的检索响应速度有了很大的提高,索引数据库的规模不断增大。但搜索引擎也面临一些棘手的问题。其中最突出的问题就是搜索引擎不具有语义,也不能理解用户在使用搜索引擎时输入的检索词所表达的语义,导致有些检索结果不能让用户满意。例如用户输入“熊猫”,用户本意是要查询熊猫这种动物的生活习性以及在中国的分布情况,但是检索结果的头条却是如图2熊猫直播的娱乐平台,这其实并不是用户想要的结果。
出现这种问题的根本是目前的搜索引擎忽视了用户请求的语义,只是生硬的检索出现过检索词“熊猫”的文档,而忽略了检索词本身的语义。“熊猫”一词可以作为一种动物,也可以作为企业熊猫电子,还可以作为品牌熊猫电视。
当然用户只是输入一个检索词,很难确定用户在当时当地用这个检索词所代表的语义,所有就有了一系列的改进做法。例如有的系统会进一步的要求输入一些限定词,也就是和用户多次交互来确定用户的真实需求。另一种做法就是将所有可能的结果全部呈现给用户,由用自己选择其中需要的检索项。目前大多数搜索引擎都是采用这样一种方式。但是这两种做法无疑都增加了用户负担,降低了搜索效率。而且在检索项排序的时候并没有充分考虑用户的行为。
解决这一问题正是提出本发明的初衷,基于当前搜索引擎存在的问题现状,本发明对传统的搜索引擎做一定改进,巧妙利用大数据智能分析来提高搜索效率,减轻用户负担。
发明内容
本发明提供一种基于大数据的信息检索系统及方法,技术解决方案是:
在传统搜索引擎框架的检索器上增加两个功能模块分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。
一种基于大数据的信息检索系统,包括:数据抓取器、数据解析器、检索器、索引器和搜索器以及客户端用户行为收集模块和服务器端的大数据智能分析模块,其特征在于:
用户行为收集模块主要收集用户在输入检索信息之后到用户关闭浏览器这段时间,用户的行为记录。用户的行为信息包括:点击URL的条数,每条URL的内容,点击URL的时间,关闭浏览器的时间。其中,点击URL的时间指:用户从搜索引擎返回到检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差,以此作为文档的阅读时间。
大数据智能分析模块会根据URL所对应的文档的长度设定一个时间阈值T,用户在小于T的时间内点击了另一条URL,则表明该URL对用户是没有多大帮助的,如果在大于T的间隔时间点击另一条URL,则表明该URL对用户是有益的。
从用户点击URL的记录信息可以得到用户最后一次有效点击的URL,也就是用户在点击之前的URL之后都不能充分解决问题,但最后一次点击之后的得到了满意的结果。所谓有效点击是指用户点击之后在一个大于T的时间之后关闭了浏览器。
用户行为收集模块以插件的形式,在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中,当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。
初始时检索器根据传统的相关性计算过程给出检索项的排序,大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后,重新排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711344430.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置