[发明专利]一种基于半监督聚类学习的暗网站点会话识别方法及系统有效
申请号: | 202210845605.5 | 申请日: | 2022-07-19 |
公开(公告)号: | CN114915599B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 李航;丁建伟;陈周国;张震;黄远;沈亮;李欣泽;杨宇;王鑫;刘志洁 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所;国家计算机网络与信息安全管理中心 |
主分类号: | H04L47/2483 | 分类号: | H04L47/2483;H04L47/2441;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 黎飞 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 网站 会话 识别 方法 系统 | ||
本发明涉及计算机网络技术领域,公开了一种基于半监督聚类学习的暗网站点会话识别方法及系统,该会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。本发明解决了现有技术存在的泛化性不足、识别准确度较低、实用性不足等问题。
技术领域
本发明涉及计算机网络技术领域,具体是一种基于半监督聚类学习的暗网站点会话识别方法及系统。
背景技术
Obfs4网桥是Tor浏览器常用网桥之一,它作为一个模仿SSL协议进行加密的匿名混淆协议,继承了Obfsproxy系列的加密方式,通过对负载部分的高度加密以及强大随机性来避免流量识别,同时在握手阶段引入了相互认证的机制,并设置了双方收发数据包的时间戳,从而很大程度上抑制了中间人攻击。通过分析Obfs4网桥的Tor浏览器客户端的流量数据,可以推断与确认双方通讯关系或任意一方的身份信息。
针对在网络流量层对Obfs4网桥下用户访问的暗网站点进行识别的问题,现有的方法大多利用机器学习或深度学习方法对Obfs4网桥的流量进行识别,例如论文《基于滑动窗口的混淆Tor流量识别》(Xu W, Zou F. Obfuscated Tor Traffic IdentificationBased on Sliding Window[J]. Security and Communication Networks, 2021,2021.)、论文《Obfs4匿名网络流量识别研究》(高睿. Obfs4 匿名网络流量识别研究[D].北京交通大学, 2018.)等研究通过提取时序特征、数据包特征、连接特征等多维流量特征,并使用机器学习算法来识别Obfs4流量,但这些研究未对流量进行进一步分析,没有对Obfs4流量下的访问的暗网站点进行识别,无法实现对暗网网络的精准监管。论文《基于匿名流量分析的网站识别》(赵晓娟. 基于匿名流量分析的网站识别[D]. 北京交通大学,2019)提出的Obfs4的网站指纹识别算法,可以对网站进行识别,但其高度依赖数据采集的多样性与人工经验提取特征的全面性,当网页结构发生变化时,需要重新训练模型,导致泛化性与实用性不足。
发明内容
为克服现有技术的不足,本发明提供了一种基于半监督聚类学习的暗网站点会话识别方法及系统,解决现有技术存在的泛化性不足、识别准确度较低、实用性不足等问题。
本发明解决上述问题所采用的技术方案是:
一种基于半监督聚类学习的暗网站点会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。
作为一种优选的技术方案,包括以下步骤:
S1,Obfs4流量采集与暗网站点标注:利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
S2,Obfs4流量预处理:对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
S3,暗网站点特征生成:基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
S4,半监督聚类:基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
S5,聚类结果反馈:对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
作为一种优选的技术方案,步骤S1包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所;国家计算机网络与信息安全管理中心,未经中国电子科技集团公司第三十研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210845605.5/2.html,转载请声明来源钻瓜专利网。