[发明专利]检查网站中链接的方法和装置有效
申请号: | 201611248655.6 | 申请日: | 2016-12-29 |
公开(公告)号: | CN108255866B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 潘峰 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958;G06F11/36 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检查 网站 链接 方法 装置 | ||
1.一种检查网站中链接的方法,其特征在于,包括:
获取待检查网站的第一页面及所述第一页面中的链接对象,其中,所述链接对象用于跳转至第二页面;
获取所述链接对象所包含的第一数据集与所述第二页面所包含的第二数据集;
将所述第一数据集中包含的数据元素与所述第二数据集中包含的数据元素进行比对,得到比对结果;
根据所述比对结果确定所述链接对象是否为错误链接;
其中,将所述第一数据集中包含的数据元素与所述第二数据集中包含的数据元素进行比对,得到比对结果,包括:查找所述第一数据集与所述第二数据集中相同的数据元素;统计所述相同的数据元素的数量;计算所述相同的数据元素的数量与所述第一数据集中包含的数据元素数量的比值;
其中,根据所述比对结果确定所述链接对象是否为错误链接,包括:如果所述比值大于等于预设阈值,则确定所述链接对象为正常链接;如果所述比值小于所述预设阈值,则确定所述链接对象为错误链接;
其中,获取所述链接对象所包含的第一数据集与所述第二页面所包含的第二数据集,包括:提取所述链接对象所包含的第一文本字符串和所述第二页面所包含的第二文本字符串;将所述第一文本字符串和所述第二文本字符串进行分词处理,得到第三数据集和第四数据集;根据预设算法模型,提取所述第三数据集中第一目标数据元素放入所述第一数据集,并提取所述第四数据集中的第二目标数据元素放入第二数据集;以及,所述预设算法模型至少包括以下至少之一:KNN算法、 朴素贝叶斯算法、决策树算法、神经网络法、线性最小二乘法、K-Means算法、余弦相似度算法;
其中,在提取所述链接对象所包含的第一文本字符串和所述第二页面所包含的第二文本字符串之前,所述方法还包括:基于文本密度提取算法,提取所述第二页面的页面内容,该步骤包括:获取所述第二页面的文档树;提取所述文档树中各个标签节点内的文本字符,并统计所述各个标签节点内的文本字符数;计算所述各个标签节点的文本密度,其中,所述文本密度为所述各个标签节点内的文本字符数占所述文档树的总文本字符数的比例;提取文本字符密度最大的标签节点的文本内容,作为所述第二页面的页面内容。
2.根据权利要求1所述的方法,其特征在于,获取待检查网站的第一页面及所述第一页面中的链接对象,包括:
通过爬虫的方式对所述待检查网站进行爬取,得到所述待检查网站的第一页面及所述第一页面中的链接对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611248655.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:php网站模板链接静态处理方法
- 下一篇:唯一标识处理方法及装置