[发明专利]基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法在审
申请号: | 201611247621.5 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649823A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 掌明;卢艳宏;杨瑞;樊纪山;王经卓;宋永献;孙巧榆;张金学;洪露 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市领专知识产权代理有限公司11590 | 代理人: | 林辉轮 |
地址: | 222005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 综合 主题词 垂直 搜索 聚焦 爬虫 网页 分类 识别 方法 | ||
1.一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,创建爬虫后,通过页面内容分析算法得到网址搜索表Search,具体步骤如下:
(1)利用聚焦爬虫技术获取网页的源文件;
(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征,若不匹配,则转步骤(9);
(3)利用正则表达式抽取网页的结构化信息;
(4)调用综合主题词关联度计算方法,得到该页面的综合主题词关联度值,所述综合主题词关联度计算方法的具体步骤为:
①构建M个主题词的综合权重向量q=(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值;
②获取待提取特征项页面;
③页面中单词词干提取:提取文本的分词做过滤处理,过滤掉抽象的或对检索无关的单词,并去除无关的前缀和后缀;
④计算提取出来的单词的词频度;
⑤过滤掉词频度小于设定阀值T的特征项,选取n个特征项构成页面特征项库,设为p=(p1,p2,…,pn);
⑥若特征库中的特征项位于<title>标签中,设r=5.0,若特征项在<meta>中,设r=3.0,若特征项在<a>中,设r=2.0,其他情况下设r=1.0。构成特征项权重向量集合r=(r1,r2,…,rn);
⑦对M个主题词依次在页面特征项库中查找其对应的pi,若在特征项库中未找到,则记为0,构成的向量为p′=(p1′,p2′,…,pn′);
⑧计算该页面中的综合主题词关联度R,其公式如下:
(5)读取页面的综合主题词关联度R,并判断是否大于设定的阀值α,若不是,则放弃该页面,转步骤(1);
(6)若该页面的综合主题词关联度R大于设定的阀值α,则把该页面的综合主题词关联度R值填入关联表Relevance中;
(7)利用正则表达式从该页面的结构化信息中提取出新链接;
(8)把该将新链填写到对应的Relevance表中,并按照Relevance值的降序方式排序;
(9)判断Relevance表是否为空,若为空,则转步骤(13);
(10)取出Relevance表中的第一个URL,判断此URL是否满足搜索策略,若不满足,则转向步骤(9);
(11)将满足搜索策略的URL加入到网址搜索表Search中,同时删除Relevance表中的第一个URL;
(12)转向步骤(1);
(13)结束;
得到网址搜索表Search后,读取网址搜索表Search,然后进行获取与主题词关联度大的网页的URL及分类信息的工作。
2.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,步骤(2)中引入URL正则表达式学习器来获取与主题词相关内容页面的URL正则表达式、与主题词相关的目录页面的正则表达式,通过正则表达式验证该网页是否匹配相关内容页面及目录页面的结构特征。
3.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,步骤(4)⑤中选取n个特征项构成页面特征项库时,若页面中词频度大于T的特征项个数大于n,则按词频度从大到小选取n个特征项;若页面中词频度大于T的特征项个数小于n,则不足的词频度特征项全部为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611247621.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:茶几(BY188)
- 下一篇:一种行为预测方法和装置