[发明专利]识别站点同源关系的方法、装置、设备和计算机存储介质有效
申请号: | 201710442512.7 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107451180B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 邹红建;方高林;付立波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 站点 同源 关系 方法 装置 设备 计算机 存储 介质 | ||
1.一种识别站点同源关系的方法,其特征在于,所述方法包括:
抓取页面并进行解析,获取页面信息,所述页面信息包括各页面的页面站点与各页面中各图片的图片站点、各页面的页面时间与各页面中各图片的图片时间以及各页面站点的字面名称与各图片站点的字面名称中的至少一种;
统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点的字面名称与各图片站点的字面名称中的至少一个;
根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点的字面名称与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。
2.根据权利要求1所述的方法,其特征在于,所述统计所获取的页面信息,得到对应各页面站点的熵值以及各图片站点的熵值包括:
根据所述页面信息中各页面的页面站点,对各页面站点进行聚簇;
根据所述各页面中图片的图片站点,对各图片站点进行聚簇;
根据所述各页面站点的聚簇结果,计算得到对应各页面站点的熵值;
根据所述各图片站点的聚簇结果,计算得到对应各图片站点的熵值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述页面信息中各页面的页面站点进行聚簇以及对各页面中图片的图片站点进行聚簇包括:
根据页面站点对图片站点进行聚簇,得到各页面站点所对应的所有页面中各图片的图片站点集合;
根据图片站点对页面站点进行聚簇,得到引用各图片站点的所有页面的页面站点集合;
利用所述图片站点集合计算各页面站点的熵值;
利用所述页面站点集合计算各图片站点的熵值。
4.根据权利要求1所述的方法,其特征在于,所述统计所获取的页面信息,得到各页面站点与各图片站点的时间差值期望包括:
根据所获取页面的页面信息,获取各页面的页面时间以及页面中各图片的图片时间;
计算各页面的页面时间与该页面中所引用图片的图片时间的差值,作为对应各页面与各图片的时间差值;
根据所述各页面与各图片的时间差值计算各页面站点与各图片站点的时间差值期望。
5.根据权利要求4所述的方法,其特征在于,所述页面中各图片的图片时间为:将最早出现该图片的页面的页面时间作为该图片的图片时间。
6.根据权利要求1所述的方法,其特征在于,所述根据所述各页面站点的熵值与各图片站点的熵值,识别具有同源关系的页面站点以及图片站点包括:
若某页面站点的熵值符合预设熵值要求且该页面站点对应的某图片站点的频率符合预设频率要求,则确定所述某页面站点和所述某图片站点具有同源关系;或者,
若某图片站点的熵值符合预设熵值要求且该图片站点对应的某页面站点的频率符合预设频率要求,则确定所述某图片站点和所述某页面站点具有同源关系。
7.根据权利要求1所述的方法,其特征在于,所述根据所述各页面站点与各图片站点之间的互信息,识别具有同源关系的页面站点以及图片站点包括:
计算各页面站点与各图片站点之间的互信息;
将所述各页面站点与各图片站点之间的互信息与预设阈值进行比较,确定具有同源关系的页面站点以及图片站点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710442512.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:针对增加区块的整体勘误的区块链的查询方法及系统
- 下一篇:页面渲染方法和装置