[发明专利]一种藏文网页的爬虫设计和网页净化方法和系统在审

申请号：	202011433751.4	申请日：	2020-12-10
公开（公告）号：	CN112328945A	公开（公告）日：	2021-02-05
发明（设计）人：	更太加;魏建国	申请（专利权）人：	青海民族大学
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/957;G06F16/955;G06F16/951
代理公司：	北京华智则铭知识产权代理有限公司 11573	代理人：	李树祥
地址：	810007***	国省代码：	青海;63
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种藏文网页爬虫设计净化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种藏文网页的爬虫设计和网页净化方法和系统，通过藏文网页的URL和文字编码来爬取，抽取网页正文，网页正文是相对网页噪声而言，现有网页页面的很多篇幅用在广告、搜索推荐和其他链接上，网页搜索工具关注的是网页本身要表达的信息，所以在通过爬虫获取到页面源码之后,去除那些与本文无关的噪声，抽取到网页正文，经过实际测试，此藏文网页净化程序对于藏文网页文本的噪声去除率为90%，达到预期效果。

技术领域

本申请涉及网络安全技术领域，尤其涉及一种藏文网页的爬虫设计和网页净化方法和系统。

背景技术

随着信息化的发展，藏文网页进行编码识别，抓取网页，网页净化等都极为重要。现有的爬虫设计爬取的基本是英文、汉语等语料丰富语言，而藏语作为少数民族语言，网上资料有限，而且利于公开爬虫工具会爬取到所有网页，无法按需求爬取，且会浪费资源和时间。

藏文网页的主流编码是utf-8，但还有部分在应用班智达、同元、北大方正、书林等编码的藏文网页。它们的编码方式不一样，所以在实际应用时也有一定的差别。

对于藏文Web文本的摘要，主要需要的是藏文网页文本的正文信息，而其他的诸如超链接、版权信息、日期时间标注和网页结构代码等信息的存在，将影响提取藏文网页摘要的速度和质量。在做藏文网页摘要提取前要把这些信息过滤，从而得到净化后的藏文网页文本信息。

因此，急需一种针对性的藏文网页的爬虫设计和网页净化的方法及系统。

发明内容

本发明的目的在于提供一种藏文网页的爬虫设计和网页净化方法和系统，通过藏文网页的URL和文字编码来爬取，抽取网页正文，网页正文是相对网页噪声而言，现有网页页面的很多篇幅用在广告、搜索推荐和其他链接上，网页搜索工具关注的是网页本身要表达的信息，所以在通过爬虫获取到页面源码之后,去除那些与本文无关的噪声，抽取到网页正文。

第一方面，本申请提供一种藏文网页的爬虫设计和网页净化方法，所述方法包括：

将要抓取的藏文网页的链接地址URL输入到处理框入口；

判断该藏文网页的编码是否为国家标准编码；

如果该藏文网页的编码不是国家标准编码，则退出程序，否则自动下载该藏文网页；

提取程序根据i=instr（已下载的藏文网页，“href=”）,j=instr(i,””),提取出第一个超链接，所述i和j为存储变量，instr为查找字符函数；

判断下载的藏文网页长度，如小于1，则抓取下一个藏文网页；如大于0，则判断该超链接是否为绝对路径，如果不是绝对路径将该超链接修改为绝对路径，并判断该超链接是否在数据库中；

如所述超链接不在数据库中，将该超链接插入到数据库，i自动累加，并重复执行所述判断下载的藏文网页长度的步骤；

如该超链在数据库中，i自动累加，并重复执行所述判断下载的藏文网页长度的步骤；

当爬取步骤执行完毕后，从存储空间导出先前用藏文网页爬虫爬取的网页，定义一个文件流MyFile和一个读取文件的流fs；

用文件流MyFile来读取文件，并打开读取文件的流fs；

以sr读取fs文件流，判断此网页是否为藏文网页，所述sr为存储变量，如不是，则将退出程序；如是，则从开始读到最后，将其放到变量xinxi中；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。