[发明专利]一种暗网数据采集与抽取系统及方法有效
| 申请号: | 201711115185.0 | 申请日: | 2017-11-13 |
| 公开(公告)号: | CN107808000B | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 孙云霄;王巍;王佰玲;程国标;辛国栋;刘扬 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/2458;G06F16/22;G06F16/28;G06F16/25 |
| 代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
| 地址: | 264209 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 采集 抽取 系统 方法 | ||
本发明涉及一种暗网数据采集与抽取系统及方法,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;暗网站点发现模块获取多源数据中的暗网url;暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,进行数据的爬取;页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,将内容相近的数据记录融合存入数据库中。本发明实现了完整的页面保存到内容抽取的系统设计流程,为暗网中违法交易活动的发现与暗网知识图谱的建立提供数据支撑。
技术领域
本发明涉及一种暗网数据采集与抽取系统及方法,属于互联网络信息技术领域。
背景技术
Tor(The Onion Router)网络为用户提供了匿名化的服务,在保证隐私的同时也助长了犯罪行为,许多网站明文标注售卖毒品、枪支弹药等违禁物品。暗网又区别于明网(Surface Web)和深网(Deep Web),前者是搜索引擎可以直接抓取到的页面,后者是指必须通过动态请求才能访问到的页面。Tor借由路由的三跳机制实现完全匿名化。使用Tor浏览器访问暗网时,入口节点和最终的目的服务器之间会有三个中转节点,入口节点知道用户的IP地址,出口节点知道目的服务器的IP地址以及传输的数据,但是整个过程中,每一个节点都不知道完整的信息流向,从而保证了匿名性。暗网中的站点具有域名后缀均包含“onion”的共同点。
在数据获取方面,Nutch是一个非常成熟的分布式爬虫,基于Hadoop搭建分布式爬虫平台可以快速获取海量数据。在深网中,可以通过设置动态IP池,构造查询请求来获取数据库的返回结果,进行相关页面的爬取与处理工作。但在暗网中进行数据爬取则完全不同,Tor中的数据只有通过暗网中才能被访问,且暗网使用的是Socks协议。Nutch使用的是http协议,基于Hadoop+Nutch来对暗网的数据爬取需要配置相关的网络服务、修改网络协议。
暗网中存在着大量的违法交易信息,暗网数据的分析和挖掘对市场监管工作具有着重要的意义。暗网,完全的匿名化服务实现对个人隐私保护的同时也滋生了很多犯罪行为。很多网站大量存在非法交易和售卖,以比特币作为交易的货币基础更使得交易难以追踪,基于暗网数据的犯罪行为发现和检测变得尤为重要。
针对暗网中售卖类网站和论坛类网站的数据采集和内容抽取,通过对暗网数据的分析发现,以售卖类网站为例,很多页面采用表单或者网状表格的形式来展示信息,表中的单元内容称为数据记录。表单即为数据记录的集合。网页中模式的重复性就体现在了数据记录结构的重复性上。对于这样的页面可以采用基于数据记录结构的重复性来完成相应的抽取工作,但是暗网中还有相当一部分页面中只存在少量数据记录,这时候基于数据记录结构的重复性方法就无法抽取到其中相应的内容了。
中国专利文献CN105138561A公开了一种暗网空间数据采集方法及装置,包括:搭建分布式系统基础架构;在分布式系统基础架构中,构建Web请求池;根据Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在分布式系统上的采集引擎;采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;解析采集到的暗网数据并抽取目标信息。但是,该专利主要是针对上文提到的深网即Deep web所进行的动态数据获取,深网中的页面没有确定的链接只有通过构造动态查询请求才可以访问,但在构造动态查询请求之后常规的爬虫即可直接进行爬取。该专利是预先基于深网数据构筑页面抽取模板,继而基于该模板抽取用户关心的信息。
发明内容
针对现有技术的不足,本发明提供了一种暗网数据采集与抽取系统;
本发明还提供了一种暗网数据采集与抽取的方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司,未经哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711115185.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





