[发明专利]一种基于隐藏服务关联的Tor核心站点发现方法在审
| 申请号: | 202210854926.1 | 申请日: | 2022-07-20 |
| 公开(公告)号: | CN115186166A | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 杨明;邢琳;顾晓丹;宋炳辰 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/955;G06F16/958;G06F21/62 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 隐藏 服务 关联 tor 核心 站点 发现 方法 | ||
1.一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于,该方法包括如下步骤:
(1)隐藏服务关联算法:针对内容相近但域名不同的Web站点,设计基于页面结构和内容的隐藏服务关联算法;
(2)计算隐藏服务存活率:通过隐藏服务的描述符是否存在来间接判定隐藏服务是否在线,并将其作为核心站点判断的特征之一;
(3)隐藏服务访问量测量:通过部署隐藏服务目录服务器HSDir收集隐藏服务盲公钥被请求的情况,进而分析比对计算隐藏服务的访问量;
(4)Tor核心站点发现:通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析,识别其中的核心站点。
2.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(1)具体包括:
(11)利用Response Header中的重定向链接进行聚类:由于一些域名访问以后会返回301状态码并自动重定向到其他页面,Response Header头中的Location字段会显示重定向后的页面域名,因此将域名和重定向域名聚类成一组;
(12)将拥有有意义标题的相同站点聚成一类:定义暗网中的站点默认页面的标题是无意义的,包括“Index of/”、“Apache2 Debian Default Page”、“401AuthorizationRequired”、Apache、Nginx,将该无意义标题以及没有标题信息的站点各自划为一组,而将拥有有意义标题信息且标题文字相同的站点划分为一组;
(13)结合HTMLDOM树、CSS样式、页面关键词综合进行聚类:将在有意义标题的组中抽取一个页面,计算每个页面的DOM树结构、class属性值、id属性值以及页面中的前20个关键词信息,并用相似度算法比较每个页面的DOM树结构相似度、class属性值和id属性值相似度以及页面关键词相似度。
3.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(2)具体包括:
(21)从数据库中读取待计算隐藏服务存活率的域名;
(22)部署多个Tor进程,客户端通过Tor控制协议向隐藏服务器发送查询请求,实现多进程并发执行;
(23)如果描述符为非异常状态,将根据返回信息判断描述符是否存在进而保存结果:如果描述符存在,则认为域名在线;如果不存在,则认为域名不在线;
(24)如果描述符查询异常且查询次数不超过5次,则将此域名重新放入队列中,稍后将进行重新查询,返回步骤(22);
(25)根据返回信息,保存计算隐藏服务存活率的检测结果。
4.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(3)具体包括:
(31)对每一个v3域名,计算一定周期内的全部盲公钥;
(32)将离线计算的盲公钥结果和从隐藏服务目录服务器上收集到的盲公钥数据做比对,获得每个v3域名的总访问量;
(33)将每个v3域名的总访问量除以统计天数以此来计算该隐藏服务v3域名的日均访问量。
5.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(4)中具体包括:
(41)对于(1)中聚类的每个组,计算每个组的存活率srj_i,其值为该组中所有域名的最大存活率;存活率srj_i如下公式表示:
其中,online_num为测量域名在线
(42)对于(1)中聚类的每个组,计算每个组的访问量viewj_i:对于有声明镜像站点的网站,viewj_i为每个组的所有域名访问量的总和;而对于没有声明镜像站点的网站,viewj_i为每个组的所有域名访问量的最大数值;
(43)将核心站点的发现问题建模为机器学习中的二分类问题,以访问量、存活率、相似页面数量、出入度作为分类属性,并使用XGBoost模型进行核心站点发现;
(44)对于分类为核心站点的页面,同时计算分类的判别概率x,基于该判别概率,进一步将认定的核心站点分为3个级别的重要程度,其中,x≥0.9的页面将被视为最重要的核心站点,0.75≤x0.9的页面被视为次重要的页面,而0.5≤x0.75的页面被视为最不重要的核心站点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210854926.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于水厂的绿色无污染的强化混凝方法
- 下一篇:一种止滑鞋底及止滑鞋





