[发明专利]一种藏文网页的爬虫设计和网页净化方法和系统在审

申请号：	202011433751.4	申请日：	2020-12-10
公开（公告）号：	CN112328945A	公开（公告）日：	2021-02-05
发明（设计）人：	更太加;魏建国	申请（专利权）人：	青海民族大学
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/957;G06F16/955;G06F16/951
代理公司：	北京华智则铭知识产权代理有限公司 11573	代理人：	李树祥
地址：	810007***	国省代码：	青海;63
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种藏文网页爬虫设计净化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种藏文网页的爬虫设计和网页净化方法，其特征在于，所述方法包括：

将要抓取的藏文网页的链接地址URL输入到处理框入口；

判断该藏文网页的编码是否为国家标准编码；

如果该藏文网页的编码不是国家标准编码，则退出程序，否则自动下载该藏文网页；

提取程序根据i=instr（已下载的藏文网页，“href=”）,j=instr(i,””),提取出第一个超链接，所述i和j为存储变量，instr为查找字符函数；

判断下载的藏文网页长度，如小于1，则抓取下一个藏文网页；如大于0，则判断该超链接是否为绝对路径，如果不是绝对路径将该超链接修改为绝对路径，并判断该超链接是否在数据库中；

如所述超链接不在数据库中，将该超链接插入到数据库，i自动累加，并重复执行所述判断下载的藏文网页长度的步骤；

如该超链在数据库中，i自动累加，并重复执行所述判断下载的藏文网页长度的步骤；

当爬取步骤执行完毕后，从存储空间导出先前用藏文网页爬虫爬取的网页，定义一个文件流MyFile和一个读取文件的流fs；

用文件流MyFile来读取文件，并打开读取文件的流fs；

以sr读取fs文件流，判断此网页是否为藏文网页，所述sr为存储变量，如不是，则将退出程序；如是，则从开始读到最后，将其放到变量xinxi中；

所述变量xinxi中有内容，提取藏文网页的正文，从xinxi中查找字符“script”、、{和(到，script、}和)等进行匹配，将其内的内容替换为空；如xinxi中含有[a-z]、[A-Z]、；、、、，enpproperty--等一些无用信息，将上述无用信息替换为空；

定义一个写流sv，将xinxi中的净化后的文本写入存储空间，继续循环所述用文件流MyFile来读取文件，直到读完文件为止；

关闭读流fs和写流sr，结束程序。

2.根据权利要求1所述的方法，其特征在于：所述藏文网页的爬虫储存爬取后的网页，将所述网页以DownloadFile下载形式对网页的链接地址URL根据存储空间分配指定的路径，将“.html”后缀的藏文网页以utf-8形式下载，文件名以自动编号进行循环储存。

3.根据权利要求1-2任一项所述的方法，其特征在于：在所述变量xinxi中查找匹配字符时，引入机器学习模型，根据所述机器学习模型的训练结果，自动将若干指定字符替换为空，或自动将若干指定字符确定为无用信息。

4.根据权利要求1-3任一项所述的方法，其特征在于：所述机器学习模型包括神经网络模型。

5.一种藏文网页的爬虫设计和网页净化系统，其特征在于，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

7.一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青海民族大学，未经青海民族大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011433751.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载