[发明专利]一种关键页面的确定方法及装置有效
申请号: | 201510947063.2 | 申请日: | 2015-12-16 |
公开(公告)号: | CN105608133B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 张龙;郭洋洋;李丹 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种关键页面的确定方法及装置,可针对任一站点,获取该站点中的所有有效链接以及所有有效链接之间的父子关系;以及,针对每一有效链接,根据得到的父子关系,确定所述有效链接的关键度相关参数,并根据各关键度相关参数以及其所对应的权重,计算所述有效链接的关键度;最后,将确定的至少一个关键度不小于设定阈值的有效链接所分别对应的页面作为该站点的关键页面。即,通过设置与链接的重要性相关的参数以及各参数所对应的权重,为关键页面的确定提供直接的量化指标,从而可自动、定量地计算站点中各页面的关键度,使得关键页面的确定以及选取更加准确、灵活,并减少了手动配置关键页面等的工作量,提高了确定关键页面的效率。 | ||
搜索关键词: | 一种 关键 页面 确定 方法 装置 | ||
【主权项】:
1.一种关键页面的确定方法,其特征在于,所述方法包括:针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关系;针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度;针对任一有效链接,所述有效链接的关键度相关参数包括:链接密度、链接深度、连通系数以及平均布局系数;其中,所述链接密度为所述有效链接在爬取过程中出现的次数与站点中所有有效链接在爬取过程中出现的总次数之比;所述链接深度为所述有效链接中分隔符出现的次数与所述链接中问号出现的次数之和的倒数;所述连通系数为所述有效链接的扇入数和扇出数中较小的数值与较大的数值之比,所述有效链接的扇入数是所述有效链接被站点中的其他有效链接引用的总次数,所述有效链接的扇出数是所述有效链接引用站点中的其他有效链接的总次数;所述平均布局系数为所述有效链接在引用所述有效链接的各有效页面中的各布局系数的平均值,其中,所述布局系数为所述有效链接相对于某一有效页面设定位置的空间位置偏移量与该页面中的所有有效链接相对于该页面设定位置的空间位置偏移量之和的比值与1的差值的相反数;根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的关键页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510947063.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种标签提取方法及装置
- 下一篇:截屏方法及装置