[发明专利]一种网络流量内容提取和分析检索方法有效
| 申请号: | 201310139368.1 | 申请日: | 2013-04-18 |
| 公开(公告)号: | CN103281213A | 公开(公告)日: | 2013-09-04 |
| 发明(设计)人: | 陶敬;韩婷;管晓宏;黄旭昌;王智;折波 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06;G06F17/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络流量 内容 提取 分析 检索 方法 | ||
1.一种网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,将原始流量分流到n个数据处理队列分别处理;
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息;
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析和解码,并提取出其中结构化的数据信息;
第四步,采用检索标注模块,基于多模式匹配算法或者搜索引擎技术,对于需求指定的关键信息在内容解析提取模块提取到的数据内容中进行检索和标注,并将标记结果提交至检索标注信息数据库,从而为多种方式的应用提供检索标注结果。
2.根据权利要求1所述的方法,所述第一步中,将原始流量分流到n个数据处理队列时,对数据报文的三元组做哈希运算,所述三元组优选的包括数据报文的源IP地址(SIP)、目的IP地址(DIP)和IP报文协议号。
3.根据权利要求2所述的方法,所述对数据报文的三元组做哈希运算具体为:对源IP地址和目的IP地址做异或运算,结果再与IP报文协议号做加法运算,最后对n取余,得到的结果即为该数据包将被分流到的队列编号。
4.根据权利要求1所述的方法,所述第二步中,所述协议识别和过滤包括对数据报文的协议封装进行识别,同时根据用户需求,过滤出指定协议的IP数据包,并进行IP碎片重组,其中,如果用户指定检索的协议不包含TCP协议数据包,则跳过TCP会话重组过程,直接转入所述第四步,进行关键信息的检索标注。
5.根据权利要求1所述的方法,所述第二步中,所述TCP会话重组模块以TCP会话的源IP地址(SIP)、目的IP地址(DIP)、源端口号(SP)和目的端口号(DP)组成的四元组为key,并以上述四元组经异或运算计算哈希值,创建TCP会话哈希表。
6.根据权利要求5所述的方法,所述TCP会话重组模块中的处理包括以下步骤:
步骤31:对于一个经协议识别过滤后的数据包,提取该数据包中的所述四元组,通过哈希计算并在相应会话哈希表中查找是否存在同一四元组的TCP会话,如果是,则取得TCP会话控制块并转步骤步骤33;否则转步骤32;
步骤32:由于在相应会话哈希表中不存在同一四元组的TCP会话,所以在该会话哈希表中相应的位置创建具有相应四元组的TCP会话控制块,初始化控制块中的信息,并将该数据包链接存储之后转步骤31;
步骤33:获取该数据包TCP包头中的下列字段值:FIN、RST、ACK、序列号、确认号、数据包序号和数据包时间戳;如果该数据包应用层数据长度为0,则更新会话状态,转步骤34;否则,在该数据包按照步骤31中查找到的TCP会话控制块中,首先利用上述获得的序列号字段值进行重组排序操作,在该数据所属传输方向上的数据包链表中逐一对比序列号,找到正确的链接位置;然后判断该数据包是否出现序列号归零,如果序列号归零,则重新找到正确的链接位置;找到正确的链接位置后,判断该数据包是否出现与已正确链接的数据包存在数据的部分重复或完全重复,如果有重复,则去除重复部分,以保证数据包正确链接存储;
步骤34:更新该数据包所在会话中所在方向的最大确认号为该数据包的确认号,并释放另一方向链表上的所有序列号小于该最大确认号的数据包,将释放的数据包提交给内容解析提取模块处理。
7.根据权利要求1所述的方法,如果用户指定检索标注网页中的文本关键字,则所述第三步中,内容解析提取模块根据HTTP协议的传输格式对数据进行解压缩,并提取出所有文本数据以及相应的字符集信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310139368.1/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





