[发明专利]基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法在审

申请号：	201611247621.5	申请日：	2016-12-29
公开（公告）号：	CN106649823A	公开（公告）日：	2017-05-10
发明（设计）人：	掌明;卢艳宏;杨瑞;樊纪山;王经卓;宋永献;孙巧榆;张金学;洪露	申请（专利权）人：	淮海工学院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市领专知识产权代理有限公司11590	代理人：	林辉轮
地址：	222005 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于综合主题词垂直搜索聚焦爬虫网页分类识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，创建爬虫后，通过页面内容分析算法得到网址搜索表Search，具体步骤如下：

(1)利用聚焦爬虫技术获取网页的源文件；

(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征，若不匹配，则转步骤(9)；

(3)利用正则表达式抽取网页的结构化信息；

(4)调用综合主题词关联度计算方法，得到该页面的综合主题词关联度值，所述综合主题词关联度计算方法的具体步骤为：

①构建M个主题词的综合权重向量q＝(q₁,q₂,...,q_M),其中q_i表示第i个主题词在查询表达式中的权值；

②获取待提取特征项页面；

③页面中单词词干提取：提取文本的分词做过滤处理，过滤掉抽象的或对检索无关的单词，并去除无关的前缀和后缀；

④计算提取出来的单词的词频度；

⑤过滤掉词频度小于设定阀值T的特征项，选取n个特征项构成页面特征项库,设为p＝(p₁,p₂,…,p_n)；

⑥若特征库中的特征项位于<title>标签中，设r＝5.0,若特征项在<meta>中，设r＝3.0,若特征项在<a>中，设r＝2.0,其他情况下设r＝1.0。构成特征项权重向量集合r＝(r₁，r₂，…，r_n)；

⑦对M个主题词依次在页面特征项库中查找其对应的p_i，若在特征项库中未找到，则记为0，构成的向量为p′＝(p₁′,p₂′,…,p_n′)；

⑧计算该页面中的综合主题词关联度R，其公式如下：

$<mrow><mi>R</mi><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>P</mi><mi>i</mi></msub><mo>*</mo><msub><msup><mi>p</mi><mo>′</mo></msup><mi>i</mi></msub><mo>*</mo><msub><mi>r</mi><mi>i</mi></msub></mrow>$

(5)读取页面的综合主题词关联度R，并判断是否大于设定的阀值α，若不是，则放弃该页面，转步骤(1)；

(6)若该页面的综合主题词关联度R大于设定的阀值α，则把该页面的综合主题词关联度R值填入关联表Relevance中；

(7)利用正则表达式从该页面的结构化信息中提取出新链接；

(8)把该将新链填写到对应的Relevance表中，并按照Relevance值的降序方式排序；

(9)判断Relevance表是否为空，若为空，则转步骤(13)；

(10)取出Relevance表中的第一个URL，判断此URL是否满足搜索策略，若不满足，则转向步骤(9)；

(11)将满足搜索策略的URL加入到网址搜索表Search中，同时删除Relevance表中的第一个URL；

(12)转向步骤(1)；

(13)结束；

得到网址搜索表Search后，读取网址搜索表Search，然后进行获取与主题词关联度大的网页的URL及分类信息的工作。

2.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，步骤(2)中引入URL正则表达式学习器来获取与主题词相关内容页面的URL正则表达式、与主题词相关的目录页面的正则表达式，通过正则表达式验证该网页是否匹配相关内容页面及目录页面的结构特征。

3.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，步骤(4)⑤中选取n个特征项构成页面特征项库时，若页面中词频度大于T的特征项个数大于n，则按词频度从大到小选取n个特征项；若页面中词频度大于T的特征项个数小于n，则不足的词频度特征项全部为0。