[发明专利]用于识别网站的方法、装置及服务器有效

申请号：	201710057271.4	申请日：	2017-01-26
公开（公告）号：	CN106844685B	公开（公告）日：	2020-07-28
发明（设计）人：	邹红建;方高林;付立波	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/953;G06F40/30
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于识别网站方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了用于识别网站的方法、装置及服务器。该方法的一具体实施方式包括：获取待识别网站的网页集合；识别该网页集合中的异常网页，其中，该异常网页中的图片信息与文本信息的相关度小于相关度阈值；确定识别出的异常网页在该网页集合中的比率；根据所确定的比率，确定该待识别网站是否为垃圾网站。该实施方式提高了识别垃圾网站的效率。

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及用于识别网站的方法、装置及服务器。

背景技术

垃圾网站，通常是指利用搜索引擎运算算法的缺陷，采用针对搜索引擎的作弊手段，使其获得高于其网络信息质量排名效果的网站。垃圾网站排在搜索结果列表中靠前的位置以欺骗用户点击，这种行为增加了检索信息的难度，降低了检索效率。

然而，现有的识别垃圾网站的方式，通常是基于网站之间的链接关系计算页面重要性，识别出垃圾网站，这种方式计算量较大，从而，存在着对垃圾网站的识别效率低的问题。

发明内容

本申请的目的在于提出一种改进的用于识别网站的方法、装置及服务器，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种用于识别网站的方法，上述方法包括：获取待识别网站的网页集合；识别上述网页集合中的异常网页，其中，上述异常网页中的图片信息与文本信息的相关度小于相关度阈值；确定识别出的异常网页在上述网页集合中的比率；根据所确定的比率，确定上述待识别网站是否为垃圾网站。

第二方面，本申请提供了一种用于识别网站装置，上述装置包括：获取单元，用于获取待识别网站的网页集合；识别单元，用于识别上述网页集合中的异常网页，其中，上述异常网页中的图片信息与文本信息的相关度小于相关度阈值；比率确定单元，用于确定识别出的异常网页在上述网页集合中的比率；垃圾网站确定单元，用于根据所确定的比率，确定上述待识别网站是否为垃圾网站。

第三方面，本申请提供了一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现上述第一方面的用于识别网站的方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面的用于识别网站的方法。

本申请提供的用于识别网站的方法、装置及服务器，通过获取待识别网站的网页集合；识别上述网页集合中的异常网页，其中，上述异常网页中的图片信息与文本信息的相关度小于相关度阈值；确定识别出的异常网页在上述网页集合中的比率；根据所确定的比率，确定上述待识别网站是否为垃圾网站，可以利用垃圾网站通常堆砌与文本无关的图片这一特点，高效率地识别垃圾网站。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于识别网站的方法的第一个实施例的流程图；

图3是根据本申请的用于识别网站的方法的一个应用场景的示意图；

图4是根据本申请的用于识别网站的方法的第二个实施例的流程图；

图5是根据本申请的用于识别网站的方法中的步骤的可选实现方式的流程图；

图6是根据本申请的用于识别网站的方法中的步骤的可选实现方式的流程图；

图7是根据本申请的用于识别网站的方法中的步骤的可选实现方式的流程图；

图8是根据本申请的用于识别网站的方法的第三个实施例的流程图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载