[发明专利]一种基于内容关联的Web追踪自动检测方法有效
申请号: | 201711282970.5 | 申请日: | 2017-12-07 |
公开(公告)号: | CN108171074B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 杨明;周佳欢;罗军舟;吴文甲;凌振 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 关联 web 追踪 自动检测 方法 | ||
本发明公开了一种基于内容关联的Web追踪自动检测方法,涉及Web用户隐私保护领域,主要解决部分Web站点在用户不知情的情况下收集、泄漏用户敏感信息的问题。本发明以浏览器扩展的形式收集用户对Web页面的操作行为以及页面元素信息,通过文本分析和图像识别等技术分析比较前后访问的页面内容与用户操作的关联性,从而判断该Web站点是否在收集用户信息。由于日益发展的Web追踪技术能够避开传统的检测方法,因此本发明从Web追踪效果入手,不仅能够有效检测用户隐私泄漏问题,还能帮助研究人员发现新型的追踪手段。
技术领域
本发明涉及Web用户隐私保护方法,具体涉及一种基于页面内容关联性的Web追踪自动检测方法。
背景技术
随着Web技术及业务的快速普及,越来越多的用户已经离不开Web。与此同时,Web站点与广告服务商希望通过设备识别进行有效的内容推荐以及更加精确的广告投放,但是部分广告商相互“合作”,贩卖用户隐私信息,从而实现跨域用户关联,进而分析用户的行为习惯和喜好,这在很大程度上违背了用户的隐私保护意愿。目前,基于Web的设备识别手段主要包括Cookie、浏览器指纹。其中Cookie是由Web服务器保存在用户浏览器上的文本信息,它可以包含用户和设备相关信息,每当用户访问Web站点时,服务器都可以访问Cookie信息从而获取用户的浏览记录和行为;而浏览器指纹是由UserAgent、字体、插件等多种浏览器、操作系统和设备硬件相关属性构成,且不依赖于具体的某个特征,因此具有较好的健壮性。
针对Web追踪带来的隐私泄露威胁,已有学者提出相关检测和防御方法。其中对于Cookie,用户可以通过浏览器直接禁用或者定期删除来规避;但浏览器指纹识别技术完全在用户不知情下收集用户信息,目前只能通过监视敏感JavaScript API的调用情况来完成检测,但这种方案是基于对攻击手段有全面了解的前提,若Web站点使用了未被发现的新属性,就能避开这种方案。
发明内容
发明目的:针对现有技术中存在的不足,本发明充分利用Web站点的智能推荐和用户操作的相关性,提出一种基于内容关联的Web追踪自动检测方法,能够从效果入手检测用户是否被追踪。
技术方案:本发明所述的一种基于内容关联的Web追踪自动检测方法,依次包含以下步骤:
1)页面元素与用户操作信息的收集:当用户访问Web站点时,通过浏览器扩展获取页面元素信息(包含所有链接对应的文本类描述信息、图片链接URL)和用户操作相关信息(包含输入的搜索内容、点击链接对应的文本类描述信息、点击图片对应的链接URL),并写入文件及数据库。
2)页面内容关联性的分析:页面内容关联包括文本关联与图片关联,其中文本关联:通过分别提取页面元素信息与用户操作信息中的文本类描述信息中的关键词,利用文本匹配技术分析两者关联度;图片关联:通过分别下载页面元素信息与用户操作中的图片,并利用图像识别技术分析两者关联度。
3)自动化流程的实现:利用浏览器自动化测试工具启动并配置浏览器,模拟用户操作并利用脚本实现自动化流程,实现Web追踪自动化检测。
有益效果:与现有技术相比,本发明具有以下优点:
1、本发明从Web追踪效果入手,通过分析用户前后两次访问的Web站点的内容与用户操作的关联性判断Web站点是否使用追踪技术收集用户信息。即使Web追踪技术不断更新,只要Web站点利用其推荐与用户相关的广告,就能被本发明检测出来。避免了现有技术需不断更新Web追踪技术先验知识的问题,结合人工代码分析还有助于发现新型的Web追踪技术。
2、本发明利用浏览器自动化测试工具以及自动化脚本将整个流程(包括启动并配置浏览器、访问Web站点、模拟用户操作、收集页面与用户操作信息)自动化,实现了Web追踪自动化检测,无需人工参与,因此有助于进行大规模Web追踪检测实验并分析真实生活中Web追踪技术的应用情况。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711282970.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法