[发明专利]一种多通道动态分布式学术资源采集方法在审
| 申请号: | 201910704887.5 | 申请日: | 2019-07-31 |
| 公开(公告)号: | CN110472122A | 公开(公告)日: | 2019-11-19 |
| 发明(设计)人: | 梁奎阳 | 申请(专利权)人: | 重庆古扬科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 400000 重庆市渝北*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 学术资源 网站 内容抽取 多通道 动态分布式 采集系统 测试系统 采集 算法 抓取 数据库系统 预处理系统 采集信息 更新系统 紧急处理 平台架构 人工辅助 实验对象 算法应用 网页平台 系统扩展 用户查询 有效字符 整合系统 抓取系统 中外文 论坛 网页 测试 维护 分类 | ||
本发明提供一种多通道动态分布式学术资源采集方法,涉及学术资源采集技术领域。该多通道动态分布式学术资源采集方法,包括测试系统、采集系统、预处理系统、分类整合系统、数据库系统、平台架构系统、用户查询系统、紧急处理系统与维护更新系统,所述测试系统为多通道抓取系统,系统抓取知名学术资源网站、典型的论坛网站与知名的中外文论坛网站上的部分网页作为实验对象,建立一个与模板无关的基于有效字符的内容抽取算法。通过测试实现得到模板无关的内容抽取算法,并将该模板无关的内容抽取算法应用到采集系统中,使得网页平台在采集信息时只需要在借助较少的人工辅助情况下就可以爬取新的网站,大大减少了系统扩展以及维护的成本。
技术领域
本发明涉及学术资源采集技术领域,具体为一种多通道动态分布式学术资源采集方法。
背景技术
随着计算机技术、信息数字化和网络化技术的迅速发展,人类社会方方面面都得到了迅速的变化,学术研究和教学领域,也毫不例外,现在大多数人都已经放弃笔和纸,转而用计算机写作了,有的学者,其计算机甚至已经更新换代多次,学术资料储存方式发生了变化,大都电子化,存储在各自的网站上。
许多学者为了查阅相关资源都会从互联网中搜索相关的学术资源网页,互联网给学者们提供了极大的方便,但是许多网页平台在采集信息时需要借助较多的人工辅助情况下才可爬取新的网站,大大增大了系统扩展以及维护的成本。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多通道动态分布式学术资源采集方法,解决了许多网页平台在采集信息时需要借助较多的人工辅助情况下才可爬取新的网站,大大增大了系统扩展以及维护的成本的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种多通道动态分布式学术资源采集方法,该采集方法包括测试系统、采集系统、预处理系统、分类整合系统、数据库系统、平台架构系统、用户查询系统、紧急处理系统与维护更新系统。
优选的,所述测试系统为多通道抓取系统,系统抓取知名学术资源网站、典型的论坛网站与知名的中外文论坛网站上的部分网页作为实验对象,建立一个与模板无关的基于有效字符的内容抽取算法,统计该内容抽取方法的准确率,根据统计结果对测试实验结果评分。
优选的,所述采集系统基于模板无关的内容抽取算法对各大学术方面网站中的网页进行采集,将网页的内容转载收集,采集系统主要涉及三方面:第一、采集新出现的网页;第二、采集之前搜集后有改变的网页;第三、将之前采集后现不存在的网页删去。
优选的,所述预处理系统将采集系统采集的数据进行预处理,通过预处理系统对HTML标签进行修正和配对,识别源码中的乱码,并将乱码翻译成文字,文字自动替换乱码。
优选的,所述分类整合系统将预处理之后的数据进行分类,并且分类整合系统自动生成并设置关键词组,然后分类整合系统将预处理系统处理之后的数据按照关键词组整合到每一个大类中。
优选的,所述数据库系统储存最终抓取的有效字符数据,并利用数据库系统对数据进行集中控制和管理,并通过数据模型表示各种数据的组织以及数据间的联系,充分有效地管理和利用各类信息资源。
优选的,所述平台架构系统包括搭建网络查询平台,平台架构系统与数据库系统中的信息实时共享,并自动生成多个平台外链,且平台架构系统对大数据提供去重、降噪、筛选、清洗等工具将无效数据进行过滤,以达到节省存储空间的目的。
优选的,所述用户查询系统包括输入模块、交互模块与接收模块,输入模块用于设置用户的行为信息;交互模块用于和提供多通道动态网页信息的服务器建立链接,根据输入模块设置的模拟用户行为信息下载动态网页信息,对下载的动态网页信息中的表项解析,从服务器中得到收集动态网页的链接地址发送给接收模块;接收模块用于根据从交互模块得到的链接地址匹配到相适配的动态网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆古扬科技有限公司,未经重庆古扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910704887.5/2.html,转载请声明来源钻瓜专利网。





