[发明专利]一种藏文网页的爬虫设计和网页净化方法和系统在审
申请号: | 202011433751.4 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112328945A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 更太加;魏建国 | 申请(专利权)人: | 青海民族大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/957;G06F16/955;G06F16/951 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 李树祥 |
地址: | 810007*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 藏文 网页 爬虫 设计 净化 方法 系统 | ||
1.一种藏文网页的爬虫设计和网页净化方法,其特征在于,所述方法包括:
将要抓取的藏文网页的链接地址URL输入到处理框入口;
判断该藏文网页的编码是否为国家标准编码;
如果该藏文网页的编码不是国家标准编码,则退出程序,否则自动下载该藏文网页;
提取程序根据i=instr(已下载的藏文网页,“href=”),j=instr(i,””),提取出第一个超链接,所述i和j为存储变量,instr为查找字符函数;
判断下载的藏文网页长度,如小于1,则抓取下一个藏文网页;如大于0,则判断该超链接是否为绝对路径,如果不是绝对路径将该超链接修改为绝对路径,并判断该超链接是否在数据库中;
如所述超链接不在数据库中,将该超链接插入到数据库,i自动累加,并重复执行所述判断下载的藏文网页长度的步骤;
如该超链在数据库中,i自动累加,并重复执行所述判断下载的藏文网页长度的步骤;
当爬取步骤执行完毕后,从存储空间导出先前用藏文网页爬虫爬取的网页,定义一个文件流MyFile和一个读取文件的流fs;
用文件流MyFile来读取文件,并打开读取文件的流fs;
以sr读取fs文件流,判断此网页是否为藏文网页,所述sr为存储变量,如不是,则将退出程序;如是,则从开始读到最后,将其放到变量xinxi中;
所述变量xinxi中有内容,提取藏文网页的正文,从xinxi中查找字符“script”、、{和(到,script、}和)等进行匹配,将其内的内容替换为空;如xinxi中含有[a-z]、[A-Z]、;、、、,enpproperty--等一些无用信息,将上述无用信息替换为空;
定义一个写流sv,将xinxi中的净化后的文本写入存储空间,继续循环所述用文件流MyFile来读取文件,直到读完文件为止;
关闭读流fs和写流sr,结束程序。
2.根据权利要求1所述的方法,其特征在于:所述藏文网页的爬虫储存爬取后的网页,将所述网页以DownloadFile下载形式对网页的链接地址URL根据存储空间分配指定的路径,将“.html”后缀的藏文网页以utf-8形式下载,文件名以自动编号进行循环储存。
3.根据权利要求1-2任一项所述的方法,其特征在于:在所述变量xinxi中查找匹配字符时,引入机器学习模型,根据所述机器学习模型的训练结果,自动将若干指定字符替换为空,或自动将若干指定字符确定为无用信息。
4.根据权利要求1-3任一项所述的方法,其特征在于:所述机器学习模型包括神经网络模型。
5.一种藏文网页的爬虫设计和网页净化系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。
7.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的藏文网页的爬虫设计和网页净化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海民族大学,未经青海民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011433751.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗乳腺癌的中药配方
- 下一篇:一种藏文网页摘要自动生成方法和系统