[发明专利]一种分布式校园内网搜索系统在审
申请号: | 202010657913.6 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111651659A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 鲁屹华 | 申请(专利权)人: | 湖北科技学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958;G06F16/953;G06F16/9538;G06F16/957;G06F9/54;G06F40/289;G06F16/16 |
代理公司: | 咸宁鸿信专利代理事务所(普通合伙) 42249 | 代理人: | 汪彩彩 |
地址: | 437100 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 校园内 搜索 系统 | ||
1.一种分布式校园内网搜索系统,其特征在于,包括网络爬虫子系统、信息预处理子系统、索引子系统和查询器子系统,其中,网络爬虫子系统对校内校园网信息进行原始收集,能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取,能够对不同格式的文件尽可能的全部下载;
信息预处理子系统能够从扩展名为html的网页文件中提取出有用的文本信息,过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息;
索引子系统能够理解网络爬虫子系统所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘;
查询器子系统能够获取用户通过浏览器传送过来的输入关键字,对索引库进行检索,匹配查询索引项,并对查询的结果按照重要度进行排序,返回给用户浏览器端。
2.根据权利要求1所述一种分布式校园内网搜索系统,其特征在于,所述网络爬虫子系统采用开源项目Heritrix对校园网内相关信息资源进行抓取,并可进行灵活的二次开发,不同的功能采用不同的组件进行实现,灵活的修改代码之后可扩展网络爬虫的功能;抓取任务CrawlOrder组件CrawlOrder是整个抓取工作的起点,在一次抓取过程中包含多种属性;
按照规则决定具体的URL进入处理队列的范围部件、处理已被搜集或者准备进行搜集的URL的边界部件、对于若干处理程序获取的URL进行分析,并通知给边界部件的处理器链部件。
3.根据权利要求2所述一种分布式校园内网搜索系统,其特征在于,所述网络爬虫子系统所采用的算法特性:在多个站点之间采用递归算法反复进行信息的抓取;对于种子站点主要采用广度优先算法获取二级站点和主机的精确信息;采用多线程的工作方式,线程数量灵活可调,可灵活设置下载的最大字节,文档数量以及下载时间。
4.根据权利要求1所述一种分布式校园内网搜索系统,其特征在于,信息预处理子系统:提取文档中的文本内容分为两类:一种是从HTML文件中提取纯文本,另一种是从非HTML文件中提取纯文本。
5.根据权利要求1所述一种分布式校园内网搜索系统,其特征在于,索引子系统:索引器是用来完成信息索引的建立、维护和管理功能的软件,它的主要功能:能够理解网络爬虫程序所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘。
6.根据权利要求1所述一种分布式校园内网搜索系统,其特征在于,查询器子系统:查询器的主要功能是获取用户通过浏览器端传送过来的输入关键字,对索引库进行检索,匹配查询索引项,并对查询的结果按照重要度进行排序,返回给用户浏览器端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北科技学院,未经湖北科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010657913.6/1.html,转载请声明来源钻瓜专利网。