[发明专利]一种关键页面的确定方法及装置有效
申请号: | 201510947063.2 | 申请日: | 2015-12-16 |
公开(公告)号: | CN105608133B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 张龙;郭洋洋;李丹 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键 页面 确定 方法 装置 | ||
1.一种关键页面的确定方法,其特征在于,所述方法包括:
针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关系;
针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度;针对任一有效链接,所述有效链接的关键度相关参数包括:链接密度、链接深度、连通系数以及平均布局系数;其中,所述链接密度为所述有效链接在爬取过程中出现的次数与站点中所有有效链接在爬取过程中出现的总次数之比;所述链接深度为所述有效链接中分隔符出现的次数与所述链接中问号出现的次数之和的倒数;所述连通系数为所述有效链接的扇入数和扇出数中较小的数值与较大的数值之比,所述有效链接的扇入数是所述有效链接被站点中的其他有效链接引用的总次数,所述有效链接的扇出数是所述有效链接引用站点中的其他有效链接的总次数;所述平均布局系数为所述有效链接在引用所述有效链接的各有效页面中的各布局系数的平均值,其中,所述布局系数为所述有效链接相对于某一有效页面设定位置的空间位置偏移量与该页面中的所有有效链接相对于该页面设定位置的空间位置偏移量之和的比值与1的差值的相反数;
根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的关键页面。
2.如权利要求1所述的方法,其特征在于,针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度,包括:
针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的链接密度、链接深度、连通系数以及平均布局系数,并根据确定的所述有效链接的链接密度、链接深度、连通系数、平均布局系数,以及所述有效链接的链接密度、链接深度、连通系数、平均布局系数所分别对应的权重,采用加权求和的方式,计算所述有效链接的关键度。
3.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述任一有效链接的链接密度:
其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;N为所述站点中的所有有效链接的总个数,所述i、N为正整数,且,所述i的取值不大于所述N的取值;Density(i)为所述任一有效链接的链接密度;count(i)为所述任一有效链接在所述站点中出现的总次数;为站点中所有有效链接在所述站点中出现的总次数。
4.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述任一有效链接的链接深度:
其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,且,所述i的取值不大于所述站点中的所有有效链接的总个数;counti('/')为所述任一有效链接中分隔符出现的次数,counti('?')为所述任一有效链接中问号出现的次数。
5.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述任一有效链接的连通系数:
其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,且,所述i的取值不大于所述站点中的所有有效链接的总个数;in(i)为所述任一有效链接被所述站点中的其他有效链接引用的总次数,out(i)为所述任一有效链接引用所述站点中的其他有效链接的总次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510947063.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种标签提取方法及装置
- 下一篇:截屏方法及装置