[发明专利]一种分布式校园内网搜索系统在审
申请号: | 202010657913.6 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111651659A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 鲁屹华 | 申请(专利权)人: | 湖北科技学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958;G06F16/953;G06F16/9538;G06F16/957;G06F9/54;G06F40/289;G06F16/16 |
代理公司: | 咸宁鸿信专利代理事务所(普通合伙) 42249 | 代理人: | 汪彩彩 |
地址: | 437100 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 校园内 搜索 系统 | ||
本发明提供了一种分布式校园内网搜索系统,属于计算机技术领域。通过对在范围内获取的网页信息和文本信息进行处理,使其形成纯文本,并以此构建一种搜索系统,用于实现网络爬虫子系统、信息预处理子系统、索引器子系统、查询器子系统,可以使得校园网用户检索信息方便、快捷。
技术领域
本发明属于计算机技术领域,涉及一种分布式校园内网搜索系统。
背景技术
随着目前高校校园网的不断发展,各所高校越来越重视数字化建设,并迅速步入了信息化高速发展的阶段。随着校园网的不断完善,这就要求给广大师生提供一个良好的信息化教学、科研和管理平台。目前,各所高校对数字化校园建设非常重视,如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。建设一个优秀的、实用的、符合自身内网信息整合的搜索引擎平台成为一种必然趋势。
目前,通用的搜索引擎,如比较著名的百度、谷歌、搜狐等在Web信息检索一块已经做的很完善,但是并不能真正适用校园内部所有的情况和特定需要。通用的搜索引擎平台和校园内网搜索引擎平台在具体校园内部信息检索应用上差别分别在以下几方面:第一方面,通用的搜索引擎检索信息的对象为整个互联网,所以无法保证对校园内网信息全面的进行搜集和提取,并且通用搜索引擎一般采取“定期搜集”,从而导致更新周期过长,而结合学校自身特点,存在各部门信息更新频繁,故通用搜索引擎在针对校内信息搜集实时性和准确性很难得以保证。第二方面,结合学校特点,部分Web信息虽然在学校主页上有链接,但必须是校园网内部用户才能访问,如:只允许内网用户访问的内部网络办公系统,只允许内网用户下载的内部文件,内部网站等,由于针对外网用户保密等各方面的原因,受到校园网设置导致通用搜索引擎在进行爬取时无能为力。第三方面,通用搜索引擎大多以商业赢利为主要目的,针对用户的检索,所返回的结果难以到达绝对的公平性。开发本平台,对于用户检索的结果排序我们可以完全自由控制,可以满足实际需要。第四方面,校园网各部门网站大部分和学校主页进行了链接,但有部分内部信息系统、网站往往由于某些原因没有和学校主页进行链接,导致通用搜索引擎在进行原始网页、文件采集时对这部分网站上的信息没收集到,如果实现内部的搜索引擎可对这部分信息进行专门的采集。第五方面,教学科研方面的需要,搜索引擎现在已经成为人们的一项生活内容,市场上对这方面的人才是非常需要的,各大高校先后都开设了这方面的课程。本发明适合校园内部的搜索引擎平台,不仅可以满足功能需要,还可以为教学科研方面服务。
发明内容
本发明的目的是针对现有的技术存在的上述问题,提供一种分布式校园内网搜索系统,本发明所要解决的技术问题是构建一种搜索系统,用于实现网络爬虫子系统、信息预处理子系统、索引器子系统、查询器子系统,可以使得校园网用户检索信息方便、快捷。
本发明的目的可通过下列技术方案来实现:一种分布式校园内网搜索系统,其特征在于,采用Java的相关技术,套接字类,URL类,中文字符处理,多线程机制,Hibernate框架包,Hadoop框架,Dubbo框架包,Struts2框架包,Spring框架包,Lucene工具包,Heritrix框架包,Nutch框架包、采用垂直应用架构以及SOA服务化架构实现的内网搜索引擎应用;具体而言,本分布式校园内网搜索系统包括四个子系统,分别是:
网络爬虫子系统:对于校内校园网信息的原始收集,能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取,能够对不同格式的文件尽可能的全部下载;
信息预处理子系统:从扩展名为html的网页文件中提取出有用的文本信息,过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息;
索引子系统:能够理解网络爬虫子系统所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北科技学院,未经湖北科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010657913.6/2.html,转载请声明来源钻瓜专利网。