[发明专利]一种基于党校科研工作主题的网络爬虫系统和方法在审
申请号: | 201810736630.3 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959576A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 徐玉红 | 申请(专利权)人: | 合肥明高软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相关度 爬行 网络爬虫系统 分析模块 工作主题 网页 数据库 排序模块 科研 互联网搜索引擎 工作网页 模块判断 爬虫模块 搜索信息 搜索引擎 网络爬虫 网页过滤 精准度 取回 调用 排序 剔除 搜索 分析 取出 保留 优化 | ||
1.一种基于党校科研工作主题的网络爬虫系统,其特征在于,包括HTML文档、初始种子模块、爬行模块、数据库、主题相关度分析模块、排序模块、主题确立模块;
所述主题确立模块用于确立爬虫面向的主题;
所述主题相关度分析模块用于进行网页主题相关度的计算;
所述初始种子模块用于生成面向特定主题的较好的种子站点,使爬行模块能够顺利展开爬行工作;
所述HTML文档、初始种子模块、数据库、相关度分析模块分别与爬行模块实时相联;所述排序模块与数据库实时相联;所述主题确立模块与相关度分析模块实时相联。
2.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫系统,其特征在于,所述主题确立模块采用关键词集来确定主题,其中每个关键词具有指定的不同的权值,所述权值采用特征提取方法。
3.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫系统,其特征在于,所述主题相关度分析模块用于保证爬虫获取的网页尽可能的向主题靠拢,对爬行模块抓取的网页进行过滤,将主题相关度较低的网页剔除,所述主题相关度分析模块采用的主题相关度计算方法为向量空间模型算法。
4.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫系统,其特征在于,所述排序模块用于对网页的重要程度进行排序,把价值高的网页排列到前面,以便更容易的被选择到,所述排序模块采用的排序方法为PageRank算法。
5.如权利要求1至4任一所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,包括网络爬虫工作方法、特征提取方法、向量空间模型算法、数据库中主题词收录方法;
所述网络爬虫工作方法包括以下步骤:
S01:所述爬虫模块取回网页;
S02:所述调用相关度分析模块对网页进行相关度分析;
S03:所述爬行模块根据分析的不同结果进行网页剔除或保留动作;
S04:所述爬行模块从数据库中取出等待处理的URL;
S05:所述排序模块对网页的重要程度进行排序;
S06:所述爬行模块判断数据库中是否有新的URL;
若是,则返回至步骤S01进行循环;
若否,则结束。
6.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述特征提取方法采用给定一个跟主题相关的网页集合,由程序自动提取这些网页中共同的特征,并根据频率确定权值。
7.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述向量空间模型算法包括如下步骤:
P01:把关键词的个数n作为向量空间的维数,每个关键词的权值wi作为每一维分量的大小,则主题用向量表示为:
α=(a1,a2,...,an),i=1,2,3...,n,ai=wi;
P02:对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率xi,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
β=(x1w1,x2w2,...,xnwn),i=1,2,...,n,
用两个向量夹角的余弦表示页面的主题相关度:
P03:指定一个阀值r r,当cos<α,β≥r时可以认为该页面与主题是比较相关的,r的取值需要根据经验和实际要求确定
8.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述数据库中主题词收录方法包括如下步骤:
T01:建立党校科研工作页面URL的常见词词库
Wurl=(the communist party,party school,party history......),收录部分权威党校科研站点的host名及常见词,设词条个数为d;
T02:将URL以“/”和“.”进行拆分后去除http、com等标记符,提取有意义的词组(word1,word2,...wordn);
T03:根据URL计算的相关性得分RURL为
其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥明高软件技术有限公司,未经合肥明高软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810736630.3/1.html,转载请声明来源钻瓜专利网。