[发明专利]一种对爬虫种子打标签的方法及装置有效
申请号: | 201610987244.2 | 申请日: | 2016-11-09 |
公开(公告)号: | CN108062337B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 贺达;曹志明;陈晓敏 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雪;王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 种子 标签 方法 装置 | ||
本发明公开一种对爬虫种子打标签的方法及装置,该方法包括:预先建立标签与关键词数组的关联关系,当接收到任一待打标签的爬虫种子时,利用所述爬虫种子爬取网页内容;从所述网页内容中提取关键词,并对所述关键词进行聚合后得到各个关键词的词频;根据各个关键词的词频对关键词进行排序,生成各个关键词的位置标识;将具有位置标识的关键词分别与所述标签与关键词数组的关联关系中的各个关键词数组进行匹配;最终,将与匹配度最高的关键词数组具有关联关系的标签,作为所述爬虫种子的标签。与现有的人工打标签方式相比,本发明能够自动化的完成对爬虫种子打标签,效率更高,标签更准确。
技术领域
本发明涉及数据处理领域,具体涉及一种对爬虫种子打标签的方法及装置。
背景技术
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫种子,则是网络爬虫进行信息抓取时的入口URL,表示网络爬虫从该URL开始进行网站内容信息的抓取。
目前互联网中有着大量的信息可以让我们获取和学习,通过网络爬虫自动抓取的网站内容由于没有经过人工审核分类,很难确定抓取到的信息属于什么知识领域,被利用的价值很低。
虽然网络上存在数以万亿的网站,但是各个网站有各自侧重的知识特点。如,有文学交流网站,专业的计算机技术交流网站等等,那么各个网站上会有其网站内容的特点,文学交流网站中的信息以文学知识为主,计算机技术交流网站中的信息则以计算机技术为主,来自不同网站的信息与网站本身是有关联的。所以,我们可以通过对网站本身的分类来达到对来自网站的信息的分类。一个网站可能存在多个爬虫种子,即网络爬虫通过这些爬虫种子进行该网站内容的爬取。我们可以通过对网站的爬虫种子打标签实现对爬取到的网站内容信息进行分类,也就是说,利用哪个爬虫种子爬取到的信息就可以按照这个爬虫种子的标签进行分类。利用这种方式,网络爬虫抓取到网站内容信息就是经过分类的可被利用的信息。
但是,目前对爬虫种子打标签的方式主要是通过人工方式进行的,即用户根据预先构建的标签体系,人工通过浏览爬虫种子的内容并结合标签体系为爬虫种子打标签。由于不同的人对于同一个爬虫种子可能会有不同的理解,这导致不同的人对同一个爬虫种子打的标签会不一致,也就是说,对爬虫种子打标签并没有统一的标准。
发明内容
鉴于上述问题,本发明提供了一种对爬虫种子打标签的方法及装置,能够自动化的完成对爬虫种子打标签,效率更高,标签更准确。
本发明提供了一种对爬虫种子打标签的方法,所述方法包括:
预先建立标签与关键词数组的关联关系;其中,所述关键词数组包括关键词与位置标识的对应关系,所述位置标识是根据与所述位置标识具有对应关系的关键词确定;
接收任一待打标签的爬虫种子,利用所述爬虫种子爬取网页内容;
从所述网页内容中提取关键词,并根据所述关键词生成各个关键词对应的位置标识;
将具有位置标识的关键词分别与所述标签与关键词数组的关联关系中的各个关键词数组进行匹配;
将与匹配度最高的关键词数组具有关联关系的标签,作为所述爬虫种子的标签。
优选地,所述根据所述关键词生成各个关键词对应的位置标识,包括:
对所述关键词进行聚合后得到各个关键词的词频;
根据各个关键词的词频对关键词进行排序,生成各个关键词的位置标识。
优选地,所述预先建立标签与关键词数组的关联关系;其中,所述关键词数组包括关键词与位置标识的对应关系,所述位置标识是根据与所述位置标识具有对应关系的关键词确定,包括:
利用预设有标签的爬虫种子爬取网页内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610987244.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能一体式洗衣机
- 下一篇:可视化图表的处理方法及装置