[发明专利]一种基于内容关联的Web追踪自动检测方法有效

申请号：	201711282970.5	申请日：	2017-12-07
公开（公告）号：	CN108171074B	公开（公告）日：	2021-03-26
发明（设计）人：	杨明;周佳欢;罗军舟;吴文甲;凌振	申请（专利权）人：	东南大学
主分类号：	G06F21/62	分类号：	G06F21/62
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210096 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于内容关联的Web追踪自动检测方法，涉及Web用户隐私保护领域，主要解决部分Web站点在用户不知情的情况下收集、泄漏用户敏感信息的问题。本发明以浏览器扩展的形式收集用户对Web页面的操作行为以及页面元素信息，通过文本分析和图像识别等技术分析比较前后访问的页面内容与用户操作的关联性，从而判断该Web站点是否在收集用户信息。由于日益发展的Web追踪技术能够避开传统的检测方法，因此本发明从Web追踪效果入手，不仅能够有效检测用户隐私泄漏问题，还能帮助研究人员发现新型的追踪手段。
搜索关键词：	一种基于内容关联 web 追踪自动检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于内容关联的Web追踪自动检测方法，其特征在于，包括以下步骤：

(1)以浏览器扩展的形式收集Web页面元素和用户操作信息；

(2)基于Web页面元素和用户操作信息分析页面内容关联性，并判断Web站点是否在追踪用户；

(3)利用浏览器自动化测试工具实现Web追踪自动化检测。

2.根据权利要求1所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(1)中页面元素包括页面中所有的文本类描述信息和图片链接；用户操作信息包括用户输入的搜索内容、点击链接的文本类描述信息以及点击图片的文本类描述信息和链接URL。

3.根据权利要求2所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(2)中页面内容关联包括文本关联与图片关联，其中，

文本关联性以文本匹配值来表示，其计算方法为：利用文本分析工具对步骤(1)中得到的用户操作信息进行关键词提取和分词，然后匹配每一个关键词在页面元素信息中的出现次数并求其和即为文本匹配值MatchText_US；

图片关联性以图片匹配值来表示，其计算方法为：利用图像识别算法、机器学习算法识别用户点击的图片以及页面上所有的图片，得到两个图片类别的集合S₁和S₂，然后匹配S₁中每个元素在S₂中出现的次数并求其和即为图片匹配值MatchImage_US；

页面内容关联度为：Match_US＝MatchText_US+MatchImage_US。

4.根据权利要求3所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(2)包括：

记录用户前后两次访问Web站点的页面元素信息用户操作信息，分别计算两次访问中页面内容关联度和当前后两次访问的页面关联度的差值大于指定阈值threshhold时，认为该Web站点在追踪用户。

5.根据权利要求1所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(3)包括：通过浏览器自动化测试工具实现启动、配置浏览器访问Web站点以及编写自动化脚本模拟用户点击、输入文本的操作行为，得到模拟用户操作和页面信息，利用步骤2中的分析得到正在追踪用户的Web站点集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711282970.5/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载