[发明专利]检查网站中链接的方法和装置有效
申请号: | 201611248655.6 | 申请日: | 2016-12-29 |
公开(公告)号: | CN108255866B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 潘峰 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958;G06F11/36 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检查 网站 链接 方法 装置 | ||
本发明公开了一种检查网站中链接的方法和装置。其中,该方法包括:获取待检查网站的第一页面及第一页面中的链接对象,其中,链接对象用于跳转至第二页面;获取链接对象所包含的第一数据集与第二页面所包含的第二数据集;将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对,得到比对结果;根据比对结果确定链接对象是否为错误链接。本发明解决了现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的技术问题。
技术领域
本发明涉及网站测试领域,具体而言,涉及一种检查网站中链接的方法和装置。
背景技术
随着互联网技术的发展,网站已成为人们从互联网上获取信息的主要工具,因而,网站质量的好坏,直接关系到用户的体验。在网站质量检测中,一项重要的指标是网站内存在的错误链接的数量,该指标会直接影响用户在网站中的体验。假设用户打开某一网站,看到如图1(a)所示的一个网页,该页面的左侧显示了一列链接标题,用户可以通过点击该列中任意一个链接标题,跳转至与该链接标题对应的一个网页。实际操作过程中,如果用户点击该列中一个名为“筑梦、追命、圆梦:天宫二号成功接续梦幻之旅”的链接标题后,跳转的网页却是如图1(b)所示的介绍的是各地群众欢度中秋节的新闻内容,这种情况下,用户会认为这个网站的链接存在欺骗点击的行为,严重的情况下,还会导致该网站的用户流失。由此,对于网站内存在的错误链接的检查,显得十分重要。
目前,对于网站内存在的错误链接的检查,现有技术主要依赖于人工进行,通过人工点击网页上的每个链接标题,来查看每个链接标题与实际打开的页面内容是否一致,来判断该链接标题是否为错误链接。其缺点是人工检查具有很大的局限性,目前的网站通常包含很多网页,需要耗费极大的人工成本,效率低下;另外,人工检查对人的主观依赖比较严重,各种因素的干扰都可能影响判断结果,准度不高。
针对上述现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种检查网站中链接的方法和装置,以至少解决现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的技术问题。
根据本发明实施例的一个方面,提供了一种检查网站中链接的方法,包括:获取待检查网站的第一页面及第一页面中的链接对象,其中,链接对象用于跳转至第二页面;提取链接对象所包含的第一数据集与第二页面所包含的第二数据集;将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对,得到比对结果;根据比对结果确定链接对象是否为错误链接。
进一步地,将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对,得到比对结果,包括:查找第一数据集与第二数据集中相同的数据元素;统计相同的数据元素的数量;计算相同的数据元素的数量与第一数据集中包含的数据元素数量的比值。
进一步地,根据比对结果确定链接对象是否为错误链接,包括:如果比值大于等于预设阈值,则确定链接对象为正常链接;如果比值小于预设阈值,则确定链接对象为错误链接。
进一步地,获取待检查网站的第一页面及第一页面中的链接对象,包括:通过爬虫的方式对待检查网站进行爬取,得到待检查网站的第一页面及第一页面中的链接对象。
进一步地,获取链接对象所包含的第一数据集与第二页面所包含的第二数据集,包括:提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串;将第一文本字符串和第二文本字符串进行分词处理,得到第三数据集和第四数据集;根据预设算法模型,提取第三数据集中第一目标数据元素放入第一数据集,并提取第四数据集中的第二目标数据元素放入第二数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611248655.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:php网站模板链接静态处理方法
- 下一篇:唯一标识处理方法及装置