[发明专利]一种自动采集网络资源的方法在审
| 申请号: | 202111646066.4 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114329265A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 谢文佳;赵卫伟;李泼;郑文斌;董绍进;王志国;曹巍;吴文华 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
| 代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 方可 |
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 采集 网络资源 方法 | ||
本发明提供的一种自动采集网络资源的方法,通过输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据预配置信息,从第一节点树中查询是否包含预配置信息;若第一节点树中包含预配置信息,则从对应的初级节点中解析需获取资源的URL地址;通过URL地址,下载需获取资源;本发明能够针对不同的数字期刊资源构建相应的采集规则,将数字期刊的网页资源转化为节点树,直接从当前版面的节点树中获取所需资源的下载URL,从而能够对需获取的资源进行集中统一处理,直接将期刊网站上分散的资源以自动化的方式进行整编,有效地提高了网络资源的获取效率,同时降低了网络资源的获取难度。
技术领域
本发明涉及网络资源技术领域,尤其涉及一种自动采集网络资源的方法。
背景技术
互联网又称国际网络,是指网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络,即广域网、城域网、局域网及单机按照一定的通讯协议组成的国际计算机网络,将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果。
在互联网中具有多种类型的网络资源,是利用计算机系统通过通信设备传播和网络软件管理的信息资源,需要由用户根据需求进行筛选;用户评价和选择网络信息资源的标准包括:网络信息资源所涵盖的范围是否广泛,是否针对相关领域或专业;本网页制作的目的是什么,有何针对性,是否面对特定方向的用户;所提供的信息的广度、深度如何;包括哪些网络资源类型,是书目、索引、文摘,还是网络期刊或者网上图书等;
由于现有的网络资源的格式、质量、运行环境等参差不一,用户难以获取符合需求的网络资源,尤其针对不同的数字期刊资源,缺乏一种对用户需求的资源进行有效整编的方法,获取网络资源的效率较低。
发明内容
本发明提供一种自动采集网络资源的方法,用以解决上述现有技术中的缺陷。
本发明提供一种自动采集网络资源的方法,包括步骤:
输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;
解析对应网络资源的页面代码,获取第一节点树;
根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;
若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;
通过所述URL地址,下载所述需获取资源。
优选的,所述预配置信息包括报刊名和报刊类型。
根据本发明提供的一种自动采集网络资源的方法,进一步包括步骤:
若根据所述预配置信息,从所述第一节点树中查询不到所述预配置信息;则输入需获取资源的报刊日期,根据所述报刊日期解析对应日期报刊的URL地址,将新的页面代码转化为第二节点树;
根据所述报刊日期解析所述第二节点树,解析所述需获取资源的URL地址,并下载所述需获取资源。
优选的,还包括步骤:
根据所述报刊名、报刊类型和所述报刊日期,生成所述报刊名和对应的报刊类型、对应的报刊日期的映射目录。
优选的,还包括步骤:
将所有同一报刊名的所有所述需获取资源整合生成一个报刊文件。
优选的,还包括步骤:
在下载过程中,实时显示同一报刊名下的所有所述需获取资源的下载进度。
另一方面,本发明还提供一种自动采集网络资源的系统,包括:信息单元、解析单元和下载单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111646066.4/2.html,转载请声明来源钻瓜专利网。





