[发明专利]一种基于网页链接参数分析的信息预测采集方法在审
| 申请号: | 201410290459.X | 申请日: | 2014-06-25 |
| 公开(公告)号: | CN104090931A | 公开(公告)日: | 2014-10-08 |
| 发明(设计)人: | 董守斌;陈佳;李粤;古万荣;袁华 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蔡茂略 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:计算网页链接的参数特征统计信息,计算网页所包含外部链接的分布信息,根据网页的外部链接分布特征对网页进行分类,网页资源的抽样预测,预测样本的采集测试,网页资源的总体预测。本发明的方法,有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的覆盖率。 | ||
| 搜索关键词: | 一种 基于 网页 链接 参数 分析 信息 预测 采集 方法 | ||
【主权项】:
一种基于网页链接参数分析的信息预测采集方法,其特征在于,包括以下顺序的步骤:(1)计算网页链接的参数特征统计信息;(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;(3)根据网页的外部链接分布特征对网页进行分类;(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410290459.X/,转载请声明来源钻瓜专利网。





