[发明专利]一种基于网页链接参数分析的信息预测采集方法在审
| 申请号: | 201410290459.X | 申请日: | 2014-06-25 |
| 公开(公告)号: | CN104090931A | 公开(公告)日: | 2014-10-08 |
| 发明(设计)人: | 董守斌;陈佳;李粤;古万荣;袁华 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蔡茂略 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 网页 链接 参数 分析 信息 预测 采集 方法 | ||
1.一种基于网页链接参数分析的信息预测采集方法,其特征在于,包括以下顺序的步骤:
(1)计算网页链接的参数特征统计信息;
(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;
(3)根据网页的外部链接分布特征对网页进行分类;
(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;
(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;
(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
2.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,所述的步骤(1),具体如下:通过对已采集的网页链接库进行遍历,遍历过程中提取网页链接的参数特征,并记录每对参数值对中已出现的最小值、最大值。
3.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(1)中,所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息,其中参数部分由多组参数值对组成,将纯数值的部分转化为一个取值范围,为预测类似的网页链接提供依据。
4.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,所述的步骤(2),具体如下:抽取每个网页中的外链接,对它们进行聚类,得到该网页上所包含的链接资源分布特征。
5.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(3)中,所述的网页的外部链接分布特征由聚类产生,通过前缀相同数目的统计、编辑距离在一定范围内,把每个网页的所有外链接聚集为形式相似的多个类别,并根据每个类别数目的大小进行排序得到分布特征。
6.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(3)中,所述的网页分类是用于识别网页链接所对应的类别,为导航类网页链接、列表页网页链接、内容页网页链接中的一种。
7.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(4)中,所述的网页资源的抽样预测,是在所有可以预测的网页资源集合中,在每个网站每个路径下都随机抽取一定比例的网页链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410290459.X/1.html,转载请声明来源钻瓜专利网。





