[发明专利]多维度搜索日志反作弊方法、系统及计算设备在审

专利信息
申请号: 201610012543.4 申请日: 2016-01-06
公开(公告)号: CN105677869A 公开(公告)日: 2016-06-15
发明(设计)人: 王靖;李天宁;曾洪雷 申请(专利权)人: 广州神马移动信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京展翼知识产权代理事务所(特殊普通合伙) 11452 代理人: 屠长存
地址: 510627 广东省广州市天河区黄埔大*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多维 搜索 日志 作弊 方法 系统 计算 设备
【说明书】:

技术领域

发明涉及因特网搜索引擎,具体涉及在因特网搜索引擎中基于用户 行为的多维度搜索日志反作弊技术。

背景技术

众所周知,用户使用因特网搜索引擎进行搜索的搜索日志通常会记录关 于搜索的各种信息,诸如用户情况、查询情况、点击情况等等,并且被存储在 存储装置中。搜索日志作为各个线上业务的核心数据,被各个线上产品大规模 深度使用,例如,线上产品的点击反馈、推荐产品、提示和相关搜索产品。由 于利益关系,在因特网搜索引擎中各种作弊手段层出不穷,频繁更新,比 如竞争对手的恶意抓取和攻击,搜索引擎优化(SEO)公司的结果相关性、 下拉词、相关词等优化。这些作弊手段使得非正常用户的搜索点击行为流 入搜索日志中,影响点击调权、提示系统、指标统计等离线处理流程。

目前,搜索日志中大部分机器行为能够通过简单的反抓取手段而被清 除,但是依然存在着作为作弊数据的大量仿冒正常用户行为的作弊行为, 包括机器抓取行为、仿冒正常用户点击的作弊的统一资源定位符(URL)和 站点、仿冒正常用户搜索的作弊的查询等。作弊者通过各种手段,实现各 类产品的排序优化,从而攫取利润;更有甚者,通过流量劫持和流量复制 等行为骗取渠道费用。这些问题不仅损害有关公司的利益,而且通过影响 各类离线数据处理流程,使得在线搜索结果偏离正常用户预期,严重影响 用户的搜索体验。

发明内容

为克服上述问题,本发明提供在因特网搜索引擎中基于用户行为的多维 度搜索日志反作弊技术,能够自动识别出搜索日志中仿冒正常用户行为的作 弊行为并进行相应的搜索日志清洗,从而提升搜索日志数据质量,改善用 户的搜索体验。

根据本发明的一个方面,提供一种在因特网搜索引擎中基于用户行为的 多维度搜索日志反作弊方法,该方法包括:挖掘作弊的因特网协议(IP)地址 的步骤,在搜索日志中通过从IP地址维度进行统计分析,识别出机器抓取行 为及相应的作弊的IP地址;挖掘作弊的URL和站点的步骤,在搜索日志中通 过分别从URL和站点维度进行统计分析,识别出仿冒正常用户点击的作弊的 URL和站点;挖掘作弊的查询的步骤,在搜索日志中通过从查询维度进行统 计分析,识别出仿冒正常用户搜索的作弊的查询;以及根据所挖掘的作弊的 IP地址、作弊的URL和站点、作弊的查询,清除搜索日志中相应的作弊数据。

可选地,在该方法的挖掘作弊的IP地址的步骤中,从IP地址维度进行统 计分析的对象包括展现量、点击数、用户数。通过对搜索日志中这些易于统计 的数据进行统计分析,可以方便地识别出作弊的IP地址。

可选地,在该方法的挖掘作弊的URL和站点的步骤中,分别从URL和站 点维度进行统计分析的对象包括点击数、平均点击位置、查询数,或者包括点 击数、平均点击位置、用户代理数,或者包括点击数、平均点击位置、总用户 数、新生成用户数、展现量。通过对搜索日志中这些易于统计的数据进行统计 分析,可以方便地识别出作弊的URL和站点。

可选地,在该方法的挖掘作弊的查询的步骤中,从查询维度进行统计分析 的对象包括用户代理数、搜索次数、渠道数、点击数,或者包括展现量、点击 数、浏览器数,或者包括展现量、用户数、点击数、IP地址数。通过对搜索 日志中这些易于统计的数据进行统计分析,可以方便地识别出作弊的查询。

可选地,该方法还可以包括:从用户标识符维度进行搜索日志清洗的步骤, 在搜索日志中根据点击的查询、URL、时长,挖掘并清除误点击行为,并且根 据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理 数,识别出该用户是正常用户还是异常用户,如果该用户被识别为异常用户, 则清除该用户的所有行为。这样,能够进一步从用户维度挖掘并清除误点击行 为、异常用户的所有行为,从而进一步提升搜索日志数据质量。

可选地,该方法还可以包括:进行株连清洗的步骤,建立识别出的作弊用 户的IP地址与站点间的关联图,利用图传播算法将识别出的作弊用户的行为 映射到其他用户上,将存在与识别出的作弊用户相同的行为链的其他用户标识 为关联作弊用户,并从搜索日志中清除关联作弊用户的所有行为。这样,能够 有效地应对新作弊用户/策略,从而增强系统的整体鲁棒性,保证线上数据应 用的稳定性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610012543.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top