[发明专利]多维度搜索日志反作弊方法、系统及计算设备在审
申请号: | 201610012543.4 | 申请日: | 2016-01-06 |
公开(公告)号: | CN105677869A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 王靖;李天宁;曾洪雷 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 搜索 日志 作弊 方法 系统 计算 设备 | ||
技术领域
本发明涉及因特网搜索引擎,具体涉及在因特网搜索引擎中基于用户 行为的多维度搜索日志反作弊技术。
背景技术
众所周知,用户使用因特网搜索引擎进行搜索的搜索日志通常会记录关 于搜索的各种信息,诸如用户情况、查询情况、点击情况等等,并且被存储在 存储装置中。搜索日志作为各个线上业务的核心数据,被各个线上产品大规模 深度使用,例如,线上产品的点击反馈、推荐产品、提示和相关搜索产品。由 于利益关系,在因特网搜索引擎中各种作弊手段层出不穷,频繁更新,比 如竞争对手的恶意抓取和攻击,搜索引擎优化(SEO)公司的结果相关性、 下拉词、相关词等优化。这些作弊手段使得非正常用户的搜索点击行为流 入搜索日志中,影响点击调权、提示系统、指标统计等离线处理流程。
目前,搜索日志中大部分机器行为能够通过简单的反抓取手段而被清 除,但是依然存在着作为作弊数据的大量仿冒正常用户行为的作弊行为, 包括机器抓取行为、仿冒正常用户点击的作弊的统一资源定位符(URL)和 站点、仿冒正常用户搜索的作弊的查询等。作弊者通过各种手段,实现各 类产品的排序优化,从而攫取利润;更有甚者,通过流量劫持和流量复制 等行为骗取渠道费用。这些问题不仅损害有关公司的利益,而且通过影响 各类离线数据处理流程,使得在线搜索结果偏离正常用户预期,严重影响 用户的搜索体验。
发明内容
为克服上述问题,本发明提供在因特网搜索引擎中基于用户行为的多维 度搜索日志反作弊技术,能够自动识别出搜索日志中仿冒正常用户行为的作 弊行为并进行相应的搜索日志清洗,从而提升搜索日志数据质量,改善用 户的搜索体验。
根据本发明的一个方面,提供一种在因特网搜索引擎中基于用户行为的 多维度搜索日志反作弊方法,该方法包括:挖掘作弊的因特网协议(IP)地址 的步骤,在搜索日志中通过从IP地址维度进行统计分析,识别出机器抓取行 为及相应的作弊的IP地址;挖掘作弊的URL和站点的步骤,在搜索日志中通 过分别从URL和站点维度进行统计分析,识别出仿冒正常用户点击的作弊的 URL和站点;挖掘作弊的查询的步骤,在搜索日志中通过从查询维度进行统 计分析,识别出仿冒正常用户搜索的作弊的查询;以及根据所挖掘的作弊的 IP地址、作弊的URL和站点、作弊的查询,清除搜索日志中相应的作弊数据。
可选地,在该方法的挖掘作弊的IP地址的步骤中,从IP地址维度进行统 计分析的对象包括展现量、点击数、用户数。通过对搜索日志中这些易于统计 的数据进行统计分析,可以方便地识别出作弊的IP地址。
可选地,在该方法的挖掘作弊的URL和站点的步骤中,分别从URL和站 点维度进行统计分析的对象包括点击数、平均点击位置、查询数,或者包括点 击数、平均点击位置、用户代理数,或者包括点击数、平均点击位置、总用户 数、新生成用户数、展现量。通过对搜索日志中这些易于统计的数据进行统计 分析,可以方便地识别出作弊的URL和站点。
可选地,在该方法的挖掘作弊的查询的步骤中,从查询维度进行统计分析 的对象包括用户代理数、搜索次数、渠道数、点击数,或者包括展现量、点击 数、浏览器数,或者包括展现量、用户数、点击数、IP地址数。通过对搜索 日志中这些易于统计的数据进行统计分析,可以方便地识别出作弊的查询。
可选地,该方法还可以包括:从用户标识符维度进行搜索日志清洗的步骤, 在搜索日志中根据点击的查询、URL、时长,挖掘并清除误点击行为,并且根 据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理 数,识别出该用户是正常用户还是异常用户,如果该用户被识别为异常用户, 则清除该用户的所有行为。这样,能够进一步从用户维度挖掘并清除误点击行 为、异常用户的所有行为,从而进一步提升搜索日志数据质量。
可选地,该方法还可以包括:进行株连清洗的步骤,建立识别出的作弊用 户的IP地址与站点间的关联图,利用图传播算法将识别出的作弊用户的行为 映射到其他用户上,将存在与识别出的作弊用户相同的行为链的其他用户标识 为关联作弊用户,并从搜索日志中清除关联作弊用户的所有行为。这样,能够 有效地应对新作弊用户/策略,从而增强系统的整体鲁棒性,保证线上数据应 用的稳定性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610012543.4/2.html,转载请声明来源钻瓜专利网。