[发明专利]一种藏文网页的爬虫设计和网页净化方法和系统在审

专利信息
申请号: 202011433751.4 申请日: 2020-12-10
公开(公告)号: CN112328945A 公开(公告)日: 2021-02-05
发明(设计)人: 更太加;魏建国 申请(专利权)人: 青海民族大学
主分类号: G06F16/958 分类号: G06F16/958;G06F16/957;G06F16/955;G06F16/951
代理公司: 北京华智则铭知识产权代理有限公司 11573 代理人: 李树祥
地址: 810007*** 国省代码: 青海;63
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 藏文 网页 爬虫 设计 净化 方法 系统
【权利要求书】:

1.一种藏文网页的爬虫设计和网页净化方法,其特征在于,所述方法包括:

将要抓取的藏文网页的链接地址URL输入到处理框入口;

判断该藏文网页的编码是否为国家标准编码;

如果该藏文网页的编码不是国家标准编码,则退出程序,否则自动下载该藏文网页;

提取程序根据i=instr(已下载的藏文网页,“href=”),j=instr(i,””),提取出第一个超链接,所述i和j为存储变量,instr为查找字符函数;

判断下载的藏文网页长度,如小于1,则抓取下一个藏文网页;如大于0,则判断该超链接是否为绝对路径,如果不是绝对路径将该超链接修改为绝对路径,并判断该超链接是否在数据库中;

如所述超链接不在数据库中,将该超链接插入到数据库,i自动累加,并重复执行所述判断下载的藏文网页长度的步骤;

如该超链在数据库中,i自动累加,并重复执行所述判断下载的藏文网页长度的步骤;

当爬取步骤执行完毕后,从存储空间导出先前用藏文网页爬虫爬取的网页,定义一个文件流MyFile和一个读取文件的流fs;

用文件流MyFile来读取文件,并打开读取文件的流fs;

以sr读取fs文件流,判断此网页是否为藏文网页,所述sr为存储变量,如不是,则将退出程序;如是,则从开始读到最后,将其放到变量xinxi中;

所述变量xinxi中有内容,提取藏文网页的正文,从xinxi中查找字符“script”、、{和(到,script、}和)等进行匹配,将其内的内容替换为空;如xinxi中含有[a-z]、[A-Z]、;、、、,enpproperty--等一些无用信息,将上述无用信息替换为空;

定义一个写流sv,将xinxi中的净化后的文本写入存储空间,继续循环所述用文件流MyFile来读取文件,直到读完文件为止;

关闭读流fs和写流sr,结束程序。

2.根据权利要求1所述的方法,其特征在于:所述藏文网页的爬虫储存爬取后的网页,将所述网页以DownloadFile下载形式对网页的链接地址URL根据存储空间分配指定的路径,将“.html”后缀的藏文网页以utf-8形式下载,文件名以自动编号进行循环储存。

3.根据权利要求1-2任一项所述的方法,其特征在于:在所述变量xinxi中查找匹配字符时,引入机器学习模型,根据所述机器学习模型的训练结果,自动将若干指定字符替换为空,或自动将若干指定字符确定为无用信息。

4.根据权利要求1-3任一项所述的方法,其特征在于:所述机器学习模型包括神经网络模型。

5.一种藏文网页的爬虫设计和网页净化系统,其特征在于,所述系统包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

7.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海民族大学,未经青海民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011433751.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top